<a href="https://colab.research.google.com/github/ArmFriiz/Dicoding-Submission-FDL/blob/main/Analisis%20Sentimen/scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Muhammad Faris Akbar**
<br></br>
**Fundamental Deep Learning - Sentimen Analisis Shopee**

In [25]:
!pip install google-play-scraper transformers



In [26]:
import sys
import os
import pandas as pd
import re

In [27]:
# try:
#     # Jika dijalankan sebagai file .py
#     base_path = os.path.dirname(os.path.abspath(__file__))
# except NameError:
#     # Jika dijalankan di Jupyter/Interactive
#     base_path = os.getcwd()

# parent_dir = os.path.abspath(os.path.join(base_path, '..'))
# sys.path.append(parent_dir)

# print("Base Path:", base_path)
# print("Parent Directory:", parent_dir)

# from Helper import *

In [28]:
from google_play_scraper import reviews, Sort
from transformers import pipeline
from tqdm import tqdm

**Helper Function**

In [29]:
def cek_nan(data):
  """
  Function yang digunakan untuk memeriksa nilai nan dari data
  input   : data
  output  : nan_info (DataFrame)
  return  : nan_info (DataFrame)
  """
  nan_info = pd.DataFrame(data.isna().sum().sort_values(ascending=False), columns=['Jumlah Nilai Missing'])

  if nan_info['Jumlah Nilai Missing'].sum() == 0:
    print("Tidak ada nilai missing")
    return None
  else:
    nan_info['Persentase Nilai Missing (%)'] = ((nan_info['Jumlah Nilai Missing'] / len(data)) * 100).round(3)

    # return data dengan nilai missing, apabila ingin mereturn keseluruhan data maka ubah menjadi return nan_info
    return nan_info[nan_info['Jumlah Nilai Missing'] > 0]

In [30]:
def visualize_row_with_nan(data, method='all', columns=None):
  """
  Procedure yang digunakan untuk menvisualisasikan baris yang mengandung NaN berdasarkan metode yang dipilih
  input   : data, method, columns
  output  : baris_nan (DataFrame)
  """
  try:
    if method not in ['all', 'column', 'columns']:
      raise ValueError("Metode tidak valid. Pilih salah satu dari 'all', 'column', 'columns'.")

    if method == 'all':
      display(data[data.isna().any(axis=1)])

    elif method == 'column':
      if not isinstance(columns, str):
          raise TypeError("Untuk metode 'column', argumen 'columns' harus berupa String.")
      if columns not in data.columns:
          raise KeyError(f"Kolom '{columns}' tidak ditemukan dalam DataFrame.")
      display(data[data[columns].isna()])

    elif method == 'columns':
      if not isinstance(columns, list):
          raise TypeError("Untuk metode 'columns', argumen 'columns' harus berupa list.")
      for column in columns:
          if column not in data.columns:
              raise KeyError(f"Kolom '{column}' tidak ditemukan dalam DataFrame.")
      display(data[data[columns].isna().all(axis=1)])

  except (TypeError, KeyError) as e:
    print(f"Kesalahan dalam memproses data: {e}")

In [31]:
def visualize_row_with_duplicated(data):
  """
  Procedure yang digunakan untuk menvisualisasikan baris yang mengandung data duplikat
  input   : data
  output  : baris_duplikat (DataFrame)
  """
  duplicated = data.duplicated().sum()

  if duplicated > 0:
    print("Jumlah Data Duplikat :", duplicated)
    all_duplicates = data[data.duplicated(keep=False)]

    duplicate_indices = all_duplicates.groupby(list(all_duplicates.columns)).groups
    print("Pasangan Data Duplikat :")
    for group_indices in duplicate_indices.values():
      if len(group_indices) > 1:
        display(data.iloc[list(group_indices)])
        print("\n")
  else:
    print("Tidak ada data duplikat")

**Main Section**

In [32]:
def scrape_google_play(app_id, total_count, country='id', lang='id'):
    """
    Fungsi untuk melakukan scraping ulasan dari Google Play Store.

    app_id (str): ID aplikasi di Play Store (contoh: 'com.shopee.id')
    total_count (int): Target jumlah data yang ingin diambil
    country (str): Kode negara (default Indonesia 'id')
    lang (str): Bahasa ulasan (default Indonesia 'id')
    """
    print(f"Proses scraping untuk aplikasi: {app_id}...")

    result, continuation_token = reviews(
        app_id,
        lang=lang,
        country=country,
        sort=Sort.NEWEST, # Sort.NEWEST digunakan untuk mendapat data terbaru
        count=total_count,
        filter_score_with=None # Mengambil semua rating (1-5)
    )

    print(f"Berhasil mengambil {len(result)} data mentah.")

    # Konversi hasil scraping ke dalam DataFrame (Tabel)
    df = pd.DataFrame(result)

    return df

In [33]:
TARGET_APP = 'com.shopee.id'
JUMLAH_DATA = 5000

df_ulasan = scrape_google_play(TARGET_APP, JUMLAH_DATA)

Proses scraping untuk aplikasi: com.shopee.id...
Berhasil mengambil 5000 data mentah.


In [34]:
# df_ulasan = pd.read_csv('https://raw.githubusercontent.com/ArmFriiz/Dicoding-Submission-FDL/refs/heads/main/Analisis%20Sentimen/dataset_ulasan_playstore.csv')

In [35]:
df_ulasan.head(5)

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,ceda1c3b-35aa-465d-a7db-2a5b281d8fcb,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Selama ini si saya suka berbelanja dg shopie d...,5,0,2.11.13,2026-01-28 07:40:49,"Hai kak Aprilia Lesmana , mohon maaf atas keti...",2026-01-28 08:11:35,2.11.13
1,11a01d47-6aa3-4cdf-820b-f1b8ce01f139,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,nice,5,0,3.67.25,2026-01-28 07:38:00,"Hai kak Sirod Judi , makasih ya bintang dan re...",2026-01-28 08:08:42,3.67.25
2,6f800dc1-1214-4bc1-a2b3-4fff93a6880c,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"pokonamah mantap lah sesuai pesanan,üëç",5,0,2.99.07,2026-01-28 07:37:52,"Hai Kak Duchin Duchin, makasih ya buat review ...",2026-01-28 08:07:54,2.99.07
3,7ce7926e-a792-4bdd-9fce-fe7fafd4b32b,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,puas sekali memudahkan untuk belanja tanpa bua...,5,0,3.66.27,2026-01-28 07:37:46,Hi Kak Muhammad Fatkhurrizky makasih bgt ya re...,2026-01-28 08:08:25,3.66.27
4,dbb67844-a290-4bca-95ed-45589ac18be8,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,barang saya hilang pengembalian dana ribet buk...,1,0,3.67.25,2026-01-28 07:36:24,"Haii kak Yourdhan Yoga, maaf ya udh bikin km k...",2026-01-28 08:37:11,3.67.25


In [36]:
df_ulasan.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   reviewId              5000 non-null   object        
 1   userName              5000 non-null   object        
 2   userImage             5000 non-null   object        
 3   content               5000 non-null   object        
 4   score                 5000 non-null   int64         
 5   thumbsUpCount         5000 non-null   int64         
 6   reviewCreatedVersion  3870 non-null   object        
 7   at                    5000 non-null   datetime64[ns]
 8   replyContent          4832 non-null   object        
 9   repliedAt             4832 non-null   datetime64[ns]
 10  appVersion            3870 non-null   object        
dtypes: datetime64[ns](2), int64(2), object(7)
memory usage: 429.8+ KB


In [37]:
df_ulasan.describe(include='all')

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
count,5000,5000,5000,5000,5000.0,5000.0,3870,5000,4832,4832,3870
unique,5000,496,498,4034,,,139,,4706,,139
top,8559618d-9db7-4212-8fa9-55916f209439,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,bagus,,,3.66.27,,"Hai Kak , makasih ya buat penilaiannya, semoga...",,3.66.27
freq,1,4504,4503,164,,,2272,,72,,2272
mean,,,,,4.1144,2.559,,2026-01-25 07:27:17.913600,,2025-12-21 19:58:12.074503424,
min,,,,,1.0,0.0,,2026-01-22 10:56:00,,2020-11-18 09:06:01,
25%,,,,,4.0,0.0,,2026-01-23 22:38:46.750000128,,2026-01-23 14:07:54.249999872,
50%,,,,,5.0,0.0,,2026-01-25 06:45:19.500000,,2026-01-25 03:22:02.500000,
75%,,,,,5.0,0.0,,2026-01-26 14:50:34.750000128,,2026-01-26 13:28:38.500000,
max,,,,,5.0,8284.0,,2026-01-28 07:40:49,,2026-01-28 12:57:14,


**Cek Validitas dan Kebersihan Data**

In [38]:
cek_nan(df_ulasan)

Unnamed: 0,Jumlah Nilai Missing,Persentase Nilai Missing (%)
reviewCreatedVersion,1130,22.6
appVersion,1130,22.6
replyContent,168,3.36
repliedAt,168,3.36


In [39]:
visualize_row_with_nan(df_ulasan)

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
8,45b1a79b-aa5f-4e1d-bcd1-8b357257003f,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,uang jualan selalu di tilep shopee,1,0,,2026-01-28 07:35:46,"Hi kak Nugroho Nusantoro, maaf banget ya udah ...",2026-01-28 08:10:20,
9,cb767cb6-76ef-41ed-aae9-0e6ac5a2443a,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,barang tiba tepat waktu dan ordersnnya sesuai,5,0,,2026-01-28 07:35:33,Hallo kak Suhatim Suhatim. Makasih yaa buat re...,2026-01-28 08:07:43,
12,c8dc9394-0a8b-4006-af40-08020600cc07,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,sangat mantap.mempermudah urusan financial saya,5,0,,2026-01-28 07:33:03,"Hi kak Syamsoel Boy, makasih ya buat bintang 5...",2026-01-28 08:08:41,
16,27454294-a5f9-437c-82e8-fedd143cd01d,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,suda lama pakai Shopee tapi sering error mau b...,1,0,,2026-01-28 07:32:09,"Hi kak Rema wanti, maaf ya udah bikin km ga ny...",2026-01-28 08:09:38,
19,070fb11e-3c48-4a96-8c8e-cdb3ec0c562c,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,bagus,5,0,,2026-01-28 07:27:32,Hi Kak Aep saepudin Saepudin makasih ya untuk ...,2026-01-28 08:09:26,
...,...,...,...,...,...,...,...,...,...,...,...
4974,ce0fb20c-e105-4d17-b0c1-49dd8e97784a,Indri Jon istovel,https://play-lh.googleusercontent.com/a-/ALV-U...,Shopee mantab,5,0,,2026-01-22 11:17:35,"Hai Kak , makasih ya buat penilaiannya, semoga...",2026-01-22 13:35:58,
4977,d28174e4-258c-49a8-91c0-bc24d54aa64d,Helmi Alfariz,https://play-lh.googleusercontent.com/a/ACg8oc...,sangat memuaskan dalam berbelanja segala kebut...,5,0,,2026-01-22 11:15:47,Hallo kak Helmi Alfariz. Makasih yaa buat revi...,2026-01-22 13:40:40,
4979,68ab749f-7f5d-40fc-ba36-cd61c572bbf3,Indriyani 17,https://play-lh.googleusercontent.com/a/ACg8oc...,iklanny ada di mna' gedeg bngt tiba' masuk k a...,3,0,,2026-01-22 11:15:29,"Hi kak Indriyani 17, mohon maaf ya kak atas ke...",2026-01-22 13:36:48,
4985,4ca309b3-da0b-4ae0-82d9-fc0b9639d49f,Wisonggeni,https://play-lh.googleusercontent.com/a-/ALV-U...,üëç,5,0,,2026-01-22 11:09:29,"Hai Kak , makasih ya buat penilaiannya, semoga...",2026-01-22 13:38:56,


In [40]:
visualize_row_with_duplicated(df_ulasan)

Tidak ada data duplikat


**Filter kolom content dan score untuk konten data**

In [41]:
df = df_ulasan[['content', 'score']]

In [42]:
visualize_row_with_duplicated(df)

Jumlah Data Duplikat : 919
Pasangan Data Duplikat :


Unnamed: 0,content,score
418,Alhamdulillah,5
820,Alhamdulillah,5
1823,Alhamdulillah,5
3003,Alhamdulillah,5






Unnamed: 0,content,score
226,Bagus,5
657,Bagus,5
713,Bagus,5
1436,Bagus,5
1733,Bagus,5
1802,Bagus,5
1919,Bagus,5
3197,Bagus,5
3688,Bagus,5
3755,Bagus,5






Unnamed: 0,content,score
348,Baik,5
1557,Baik,5
3496,Baik,5
4312,Baik,5






Unnamed: 0,content,score
1513,Good,5
1677,Good,5
3192,Good,5
3630,Good,5
4641,Good,5






Unnamed: 0,content,score
297,Mantap,5
1219,Mantap,5
1379,Mantap,5
1800,Mantap,5
1852,Mantap,5
2713,Mantap,5
2737,Mantap,5
3284,Mantap,5
3760,Mantap,5
4481,Mantap,5






Unnamed: 0,content,score
640,OK,5
2415,OK,5
2861,OK,5
4057,OK,5






Unnamed: 0,content,score
224,Ok,5
408,Ok,5
1687,Ok,5
3101,Ok,5
4380,Ok,5
4589,Ok,5






Unnamed: 0,content,score
124,Sangat membantu,5
393,Sangat membantu,5
2450,Sangat membantu,5






Unnamed: 0,content,score
792,amanah,5
2349,amanah,5
3162,amanah,5
3569,amanah,5
4273,amanah,5
4575,amanah,5






Unnamed: 0,content,score
3315,aplikasi yg sangat membantu,5
4186,aplikasi yg sangat membantu,5






Unnamed: 0,content,score
1313,bagus,1
1483,bagus,1
3737,bagus,1






Unnamed: 0,content,score
147,bagus,4
199,bagus,4
1073,bagus,4
1803,bagus,4
2474,bagus,4
4306,bagus,4
4988,bagus,4






Unnamed: 0,content,score
19,bagus,5
35,bagus,5
52,bagus,5
82,bagus,5
154,bagus,5
...,...,...
4905,bagus,5
4913,bagus,5
4945,bagus,5
4949,bagus,5






Unnamed: 0,content,score
585,bagus banget,5
755,bagus banget,5
817,bagus banget,5
2678,bagus banget,5
2718,bagus banget,5
2819,bagus banget,5
3215,bagus banget,5
3297,bagus banget,5
3693,bagus banget,5
4647,bagus banget,5






Unnamed: 0,content,score
2933,bagus bgt,5
4838,bagus bgt,5






Unnamed: 0,content,score
2874,bagus dan sangat membantu,5
4435,bagus dan sangat membantu,5






Unnamed: 0,content,score
1074,bagus mantap,5
1910,bagus mantap,5






Unnamed: 0,content,score
238,bagus sekali,5
243,bagus sekali,5
427,bagus sekali,5
3807,bagus sekali,5
3948,bagus sekali,5
4483,bagus sekali,5
4797,bagus sekali,5






Unnamed: 0,content,score
1643,bagus terpercaya,5
2985,bagus terpercaya,5






Unnamed: 0,content,score
1017,baguss,5
1038,baguss,5
1334,baguss,5
2579,baguss,5
2945,baguss,5
2953,baguss,5
4164,baguss,5
4180,baguss,5
4865,baguss,5






Unnamed: 0,content,score
115,bagusss,5
2363,bagusss,5
3061,bagusss,5
3421,bagusss,5






Unnamed: 0,content,score
1853,baik,1
3256,baik,1
4081,baik,1






Unnamed: 0,content,score
6,baik,5
55,baik,5
353,baik,5
361,baik,5
590,baik,5
837,baik,5
841,baik,5
882,baik,5
1084,baik,5
1151,baik,5






Unnamed: 0,content,score
1415,baik sekali,5
2126,baik sekali,5






Unnamed: 0,content,score
653,barang sesuai dengan pesanan,5
4205,barang sesuai dengan pesanan,5






Unnamed: 0,content,score
2809,berkualitas,5
3018,berkualitas,5






Unnamed: 0,content,score
1238,best,5
3583,best,5
3986,best,5






Unnamed: 0,content,score
138,bgus,5
1421,bgus,5
1932,bgus,5
2156,bgus,5
2493,bgus,5
2881,bgus,5
3535,bgus,5






Unnamed: 0,content,score
1607,buruk,1
2535,buruk,1
3181,buruk,1






Unnamed: 0,content,score
2093,cukup memuaskan,5
4471,cukup memuaskan,5






Unnamed: 0,content,score
447,good,4
3237,good,4






Unnamed: 0,content,score
123,good,5
205,good,5
294,good,5
420,good,5
698,good,5
743,good,5
765,good,5
814,good,5
976,good,5
1052,good,5






Unnamed: 0,content,score
288,good aplikasi,5
1359,good aplikasi,5






Unnamed: 0,content,score
113,good job,5
234,good job,5
253,good job,5
588,good job,5
1418,good job,5
3413,good job,5
4547,good job,5






Unnamed: 0,content,score
3179,is the best,5
3482,is the best,5






Unnamed: 0,content,score
1770,jelek,1
4166,jelek,1
4263,jelek,1
4906,jelek,1






Unnamed: 0,content,score
37,jos,5
796,jos,5
1431,jos,5
1481,jos,5
1934,jos,5
2954,jos,5
3881,jos,5
4816,jos,5






Unnamed: 0,content,score
1636,josss,4
1892,josss,4






Unnamed: 0,content,score
1619,josss,5
3130,josss,5
3621,josss,5
4716,josss,5






Unnamed: 0,content,score
322,keren,5
435,keren,5
651,keren,5
905,keren,5
1188,keren,5
1517,keren,5
1683,keren,5
1730,keren,5
1976,keren,5
2262,keren,5






Unnamed: 0,content,score
213,lancar,5
1032,lancar,5






Unnamed: 0,content,score
601,luar biasa,5
1090,luar biasa,5
1350,luar biasa,5
1394,luar biasa,5
2212,luar biasa,5
2853,luar biasa,5
4119,luar biasa,5
4639,luar biasa,5






Unnamed: 0,content,score
1127,lumayan bagus,5
4568,lumayan bagus,5






Unnamed: 0,content,score
3025,lumayan lah,5
4922,lumayan lah,5






Unnamed: 0,content,score
440,mantaaap,5
1482,mantaaap,5






Unnamed: 0,content,score
2500,mantaap,5
4099,mantaap,5






Unnamed: 0,content,score
1040,mantab,5
1872,mantab,5
1958,mantab,5
2544,mantab,5
2709,mantab,5
3391,mantab,5
4546,mantab,5
4995,mantab,5






Unnamed: 0,content,score
1050,mantap,1
3395,mantap,1






Unnamed: 0,content,score
2931,mantap,3
4074,mantap,3






Unnamed: 0,content,score
221,mantap,4
340,mantap,4
531,mantap,4
903,mantap,4
1215,mantap,4
2384,mantap,4
2387,mantap,4
3371,mantap,4
3902,mantap,4
4415,mantap,4






Unnamed: 0,content,score
105,mantap,5
118,mantap,5
127,mantap,5
179,mantap,5
248,mantap,5
...,...,...
4775,mantap,5
4793,mantap,5
4808,mantap,5
4943,mantap,5






Unnamed: 0,content,score
61,mantap banget,5
4667,mantap banget,5






Unnamed: 0,content,score
771,mantap keren,5
1813,mantap keren,5






Unnamed: 0,content,score
4125,mantap lah,5
4475,mantap lah,5






Unnamed: 0,content,score
2541,mantap shopee,5
3708,mantap shopee,5






Unnamed: 0,content,score
1261,mantul,5
2567,mantul,5
4655,mantul,5






Unnamed: 0,content,score
550,membantu,5
1807,membantu,5
3118,membantu,5






Unnamed: 0,content,score
549,membantu sekali,5
731,membantu sekali,5






Unnamed: 0,content,score
363,memuaskan,4
3123,memuaskan,4






Unnamed: 0,content,score
2249,memuaskan,5
2326,memuaskan,5
2672,memuaskan,5
2841,memuaskan,5
2890,memuaskan,5
3121,memuaskan,5
4643,memuaskan,5
4791,memuaskan,5
4853,memuaskan,5
4923,memuaskan,5






Unnamed: 0,content,score
3227,menyenangkan,5
3722,menyenangkan,5
3831,menyenangkan,5






Unnamed: 0,content,score
793,mudah dan murah,5
1691,mudah dan murah,5






Unnamed: 0,content,score
1752,mudah di gunakan,5
3507,mudah di gunakan,5
4418,mudah di gunakan,5






Unnamed: 0,content,score
3082,murah,5
4862,murah,5






Unnamed: 0,content,score
1,nice,5
1181,nice,5
1385,nice,5
2290,nice,5
2712,nice,5
2795,nice,5
3433,nice,5
3634,nice,5
3777,nice,5
4314,nice,5






Unnamed: 0,content,score
106,ok,1
3139,ok,1






Unnamed: 0,content,score
436,ok,4
450,ok,4
1315,ok,4
3435,ok,4
3544,ok,4
3743,ok,4
3841,ok,4






Unnamed: 0,content,score
103,ok,5
182,ok,5
318,ok,5
357,ok,5
487,ok,5
537,ok,5
543,ok,5
705,ok,5
856,ok,5
899,ok,5






Unnamed: 0,content,score
177,ok banget,5
834,ok banget,5
1937,ok banget,5
2428,ok banget,5
2711,ok banget,5
4572,ok banget,5






Unnamed: 0,content,score
155,oke,5
208,oke,5
405,oke,5
591,oke,5
770,oke,5
1035,oke,5
1642,oke,5
1646,oke,5
1656,oke,5
1693,oke,5






Unnamed: 0,content,score
995,oke banget,5
2688,oke banget,5
4092,oke banget,5
4264,oke banget,5






Unnamed: 0,content,score
2568,pengiriman cepat,5
4738,pengiriman cepat,5






Unnamed: 0,content,score
2657,pokoknya mantap,5
4315,pokoknya mantap,5






Unnamed: 0,content,score
452,puas,5
2885,puas,5
3148,puas,5
3863,puas,5
4052,puas,5
4297,puas,5
4871,puas,5






Unnamed: 0,content,score
470,sampah,1
3326,sampah,1






Unnamed: 0,content,score
669,sangat bagus,4
2959,sangat bagus,4
3498,sangat bagus,4






Unnamed: 0,content,score
259,sangat bagus,5
536,sangat bagus,5
569,sangat bagus,5
667,sangat bagus,5
1077,sangat bagus,5
1132,sangat bagus,5
1165,sangat bagus,5
1358,sangat bagus,5
1426,sangat bagus,5
1459,sangat bagus,5






Unnamed: 0,content,score
527,sangat bagus dan mudah,5
1184,sangat bagus dan mudah,5






Unnamed: 0,content,score
3376,sangat bagus sekali,5
3913,sangat bagus sekali,5






Unnamed: 0,content,score
160,sangat baik,5
230,sangat baik,5
397,sangat baik,5
823,sangat baik,5
884,sangat baik,5
1143,sangat baik,5
1333,sangat baik,5
1425,sangat baik,5
2585,sangat baik,5
3322,sangat baik,5






Unnamed: 0,content,score
1332,sangat bermanfaat,5
1519,sangat bermanfaat,5
2593,sangat bermanfaat,5
2870,sangat bermanfaat,5






Unnamed: 0,content,score
2984,sangat cocok bagi saya,5
3002,sangat cocok bagi saya,5






Unnamed: 0,content,score
17,sangat membantu,5
86,sangat membantu,5
295,sangat membantu,5
442,sangat membantu,5
576,sangat membantu,5
900,sangat membantu,5
932,sangat membantu,5
1262,sangat membantu,5
1688,sangat membantu,5
1746,sangat membantu,5






Unnamed: 0,content,score
501,sangat memuaskan,5
682,sangat memuaskan,5
760,sangat memuaskan,5
952,sangat memuaskan,5
1150,sangat memuaskan,5
1202,sangat memuaskan,5
1340,sangat memuaskan,5
3030,sangat memuaskan,5
3035,sangat memuaskan,5
3038,sangat memuaskan,5






Unnamed: 0,content,score
1357,sangat menyenangkan,5
3135,sangat menyenangkan,5






Unnamed: 0,content,score
32,sangat puas,5
73,sangat puas,5
557,sangat puas,5
756,sangat puas,5
791,sangat puas,5
1212,sangat puas,5
1375,sangat puas,5
1396,sangat puas,5
1652,sangat puas,5
1908,sangat puas,5






Unnamed: 0,content,score
1263,sangat puas belanja di shopee,5
1837,sangat puas belanja di shopee,5
3687,sangat puas belanja di shopee,5
4159,sangat puas belanja di shopee,5






Unnamed: 0,content,score
457,sangat puas dgn shopee,5
3083,sangat puas dgn shopee,5
3890,sangat puas dgn shopee,5






Unnamed: 0,content,score
194,sangat rekomen,5
356,sangat rekomen,5






Unnamed: 0,content,score
1603,sangat senang,5
4617,sangat senang,5






Unnamed: 0,content,score
1572,sesuai,5
1851,sesuai,5
4400,sesuai,5






Unnamed: 0,content,score
2186,shopee is the best,5
2328,shopee is the best,5
2509,shopee is the best,5
2756,shopee is the best,5
4241,shopee is the best,5
4691,shopee is the best,5






Unnamed: 0,content,score
370,shopee terbaik,5
1828,shopee terbaik,5






Unnamed: 0,content,score
916,siiip,5
1485,siiip,5






Unnamed: 0,content,score
1085,simpel,5
1582,simpel,5






Unnamed: 0,content,score
286,sippp,5
1225,sippp,5
2448,sippp,5






Unnamed: 0,content,score
4339,suka,5
4551,suka,5
4585,suka,5






Unnamed: 0,content,score
47,terbaik,5
269,terbaik,5
277,terbaik,5
555,terbaik,5
663,terbaik,5
1473,terbaik,5
1666,terbaik,5
1962,terbaik,5
2221,terbaik,5
2410,terbaik,5






Unnamed: 0,content,score
875,terimakasih,5
1461,terimakasih,5
1948,terimakasih,5
2820,terimakasih,5
3172,terimakasih,5
4462,terimakasih,5
4809,terimakasih,5
4829,terimakasih,5






Unnamed: 0,content,score
610,terpercaya,5
2213,terpercaya,5
3190,terpercaya,5
3222,terpercaya,5
3278,terpercaya,5
4752,terpercaya,5






Unnamed: 0,content,score
75,the best,5
1621,the best,5
4861,the best,5






Unnamed: 0,content,score
631,top,5
1931,top,5
2072,top,5
2619,top,5
2647,top,5
3056,top,5
3724,top,5
3804,top,5
3943,top,5
4181,top,5






Unnamed: 0,content,score
3066,top markotop,5
3697,top markotop,5
4789,top markotop,5






Unnamed: 0,content,score
1829,very good,5
2246,very good,5






Unnamed: 0,content,score
1154,üëç,5
1366,üëç,5
2375,üëç,5
3522,üëç,5
3770,üëç,5
4148,üëç,5
4284,üëç,5
4451,üëç,5
4985,üëç,5






Unnamed: 0,content,score
3099,üëçüèª,5
3107,üëçüèª,5






Unnamed: 0,content,score
1210,üëçüëçüëç,5
1257,üëçüëçüëç,5
2408,üëçüëçüëç,5
3079,üëçüëçüëç,5
3450,üëçüëçüëç,5






In [43]:
df.drop_duplicates(inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop_duplicates(inplace=True)


In [44]:
visualize_row_with_duplicated(df)

Tidak ada data duplikat


In [45]:
print(f"Ukuran Data Setelah Pembersihan NaN dan Duplicated: {df.shape}")

Ukuran Data Setelah Pembersihan NaN dan Duplicated: (4081, 2)


**Soft Cleaning Data**

In [46]:
def cleaning_untuk_labeling(text):
    text = str(text)
    text = re.sub(r'https?://\S+|www\.\S+', '', text) # Hapus URL
    text = re.sub(r'<.*?>', '', text) # Hapus HTML tags
    text = re.sub(r'@[A-Za-z0-9_]+', '', text) # Hapus Mentions (@user)
    text = re.sub(r'#[A-Za-z0-9]+', '', text) # Hapus hashtag
    text = re.sub(r'(.)\1{2,}', r'\1\1', text) # Hapus kata berulang yang muncul lebih dari 2x
    text = re.sub(r'[a-zA-Z]+\d+\w*|\w*\d+[a-zA-Z]+', '', text) # Hapus kombinasi angka dan huruf seperti m4ndi, 4yam, dll
    text = re.sub(r'\b\d{7,}\b', '', text) # Hapus angka yang panjangnya lebih dari 7
    text = ' '.join(text.split())

    return text

In [47]:
df['soft_clean_content'] = df['content'].apply(cleaning_untuk_labeling)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['soft_clean_content'] = df['content'].apply(cleaning_untuk_labeling)


In [48]:
df.head(5)

Unnamed: 0,content,score,soft_clean_content
0,Selama ini si saya suka berbelanja dg shopie d...,5,Selama ini si saya suka berbelanja dg shopie d...
1,nice,5,nice
2,"pokonamah mantap lah sesuai pesanan,üëç",5,"pokonamah mantap lah sesuai pesanan,üëç"
3,puas sekali memudahkan untuk belanja tanpa bua...,5,puas sekali memudahkan untuk belanja tanpa bua...
4,barang saya hilang pengembalian dana ribet buk...,1,barang saya hilang pengembalian dana ribet buk...


In [49]:
cek_nan(df)

Tidak ada nilai missing


In [50]:
visualize_row_with_nan(df)

Unnamed: 0,content,score,soft_clean_content


In [51]:
df.dropna(inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.dropna(inplace=True)


**Labeling Data**

In [52]:
# def labeling_data(df):
#     """
#     Fungsi untuk memberikan label otomatis berdasarkan skor bintang.
#     Menggunakan logika:
#     1-2 Bintang = Negatif
#     3 Bintang   = Netral
#     4-5 Bintang = Positif
#     """
#     def get_sentiment(score):
#         if score <= 2:
#             return 'Negatif'
#         elif score == 3:
#             return 'Netral'
#         else:
#             return 'Positif'

#     # Terapkan fungsi get_sentiment ke kolom 'score'
#     df['label'] = df['score'].apply(get_sentiment)

#     return df

In [53]:
# print("Labeling data berdasarkan skor bintang")
# df_labeled = labeling_data(df)

In [54]:
def label_with_indobert(df):
  pretrained_name = "w11wo/indonesian-roberta-base-sentiment-classifier"

  nlp = pipeline(
      "sentiment-analysis",
      model=pretrained_name,
      tokenizer=pretrained_name,
      truncation=True, # Potong teks jika terlalu panjang (>512 kata)
      max_length=512
    )

  labels = []
  scores = []

  for text in tqdm(df['soft_clean_content']):
    try:
      result = nlp(text)[0] # Prediksi sentimen

      label = result['label'] # output: 'positive', 'neutral', 'negative'

      # Mapping ulang ke format Bahasa Indonesia
      label_map = {
        'positive': 'Positif',
        'neutral': 'Netral',
        'negative': 'Negatif'
      }
      labels.append(label_map.get(label, label))
      scores.append(result['score'])

    except Exception as e:
      print(f"Error pada teks: {text}")
      labels.append("Netral")
      scores.append(0.0)

  df['sentiment_label'] = labels
  df['confidence_score'] = scores

  return df

In [None]:
df_labeled = label_with_indobert(df)

In [None]:
df_labeled.head(5)

**Pemeriksaan Distribusi Data, memastikan apakah terdapat imbalance atau tidak**

In [None]:
print("Distribusi Data per Kelas:")
print(df_labeled['sentiment_label'].value_counts())

**Konversi ke csv untuk mempermudah dalam pembersihan data lebih lanjut**

In [None]:
nama_file = 'dataset_ulasan_playstore.csv'
df_labeled.to_csv(nama_file, index=False)

print(f"Selesai! Data berhasil disimpan ke '{nama_file}'")
print(f"Total data: {len(df_labeled)}")