# **1. Perkenalan Dataset**


Tahap pertama, Anda harus mencari dan menggunakan dataset dengan ketentuan sebagai berikut:

1. **Sumber Dataset**:  
   Dataset diperoleh dari data primer yang dikumpulkan secara mandiri berupa ulasan pengguna pada aplikasi KAI Access di Play Store..


# **2. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning atau deep learning.

In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

# **3. Memuat Dataset**

Pada tahap ini, Anda perlu memuat dataset ke dalam notebook. Jika dataset dalam format CSV, Anda bisa menggunakan pustaka pandas untuk membacanya. Pastikan untuk mengecek beberapa baris awal dataset untuk memahami strukturnya dan memastikan data telah dimuat dengan benar.

Jika dataset berada di Google Drive, pastikan Anda menghubungkan Google Drive ke Colab terlebih dahulu. Setelah dataset berhasil dimuat, langkah berikutnya adalah memeriksa kesesuaian data dan siap untuk dianalisis lebih lanjut.

Jika dataset berupa unstructured data, silakan sesuaikan dengan format seperti kelas Machine Learning Pengembangan atau Machine Learning Terapan

In [15]:
df = pd.read_csv('ulasan_KAI.csv')
df.head()

Unnamed: 0,reviewId,userName,userImage,content,score,thumbsUpCount,reviewCreatedVersion,at,replyContent,repliedAt,appVersion
0,7da9a3a9-406f-4d25-9976-16659b9cc303,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,sangat bagus dan memudahkan dalam pemesanan ti...,4,2,6.14.7,2025-10-18 23:40:33,,,6.14.7
1,a9cea8a9-bedd-473a-887d-5567148e27f8,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"sebenernya ini apk udh cukup membantu, tapi ma...",1,14,6.14.7,2025-10-10 09:41:36,,,6.14.7
2,c11d6996-23cb-42b8-b0f8-31f5dcb5ac21,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Tolong aplikasinya diperbaiki, mau pesan tiket...",1,117,6.14.4,2025-10-04 18:23:17,,,6.14.4
3,8b12a49c-0320-49bd-8c1a-76ee0af51745,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,"Sistem yang aneh, kenapa? [1] Hanya bisa beli ...",1,7,6.14.7,2025-10-12 01:23:20,,,6.14.7
4,807a5913-129c-4484-8965-66a5314849c1,Pengguna Google,https://play-lh.googleusercontent.com/EGemoI2N...,Masukan untuk sistem pembayaran di opsi e-wall...,4,8,6.14.4,2025-10-03 12:33:01,,,6.14.4


# **4. Exploratory Data Analysis (EDA)**

Pada tahap ini, Anda akan melakukan **Exploratory Data Analysis (EDA)** untuk memahami karakteristik dataset.

Tujuan dari EDA adalah untuk memperoleh wawasan awal yang mendalam mengenai data dan menentukan langkah selanjutnya dalam analisis atau pemodelan.

In [16]:
df.shape

(95415, 11)

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 95415 entries, 0 to 95414
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   reviewId              95415 non-null  object
 1   userName              95415 non-null  object
 2   userImage             95415 non-null  object
 3   content               95404 non-null  object
 4   score                 95415 non-null  int64 
 5   thumbsUpCount         95415 non-null  int64 
 6   reviewCreatedVersion  77364 non-null  object
 7   at                    95415 non-null  object
 8   replyContent          10438 non-null  object
 9   repliedAt             10438 non-null  object
 10  appVersion            77364 non-null  object
dtypes: int64(2), object(9)
memory usage: 8.0+ MB


In [18]:
df.describe()

Unnamed: 0,score,thumbsUpCount
count,95415.0,95415.0
mean,2.757397,1.208405
std,1.799857,15.564467
min,1.0,0.0
25%,1.0,0.0
50%,2.0,0.0
75%,5.0,0.0
max,5.0,2225.0


In [19]:
df.isnull().sum()

Unnamed: 0,0
reviewId,0
userName,0
userImage,0
content,11
score,0
thumbsUpCount,0
reviewCreatedVersion,18051
at,0
replyContent,84977
repliedAt,84977


In [20]:
df.duplicated().sum()

np.int64(0)

# **5. Data Preprocessing**

Pada tahap ini, data preprocessing adalah langkah penting untuk memastikan kualitas data sebelum digunakan dalam model machine learning.

Jika Anda menggunakan data teks, data mentah sering kali mengandung nilai kosong, duplikasi, atau rentang nilai yang tidak konsisten, yang dapat memengaruhi kinerja model. Oleh karena itu, proses ini bertujuan untuk membersihkan dan mempersiapkan data agar analisis berjalan optimal.

Berikut adalah tahapan-tahapan yang bisa dilakukan, tetapi **tidak terbatas** pada:
1. Menghapus atau Menangani Data Kosong (Missing Values)
2. Menghapus Data Duplikat
3. Normalisasi atau Standarisasi Fitur
4. Deteksi dan Penanganan Outlier
5. Encoding Data Kategorikal
6. Binning (Pengelompokan Data)

Cukup sesuaikan dengan karakteristik data yang kamu gunakan yah. Khususnya ketika kami menggunakan data tidak terstruktur.

In [21]:
df = df.drop(columns=['replyContent', 'repliedAt'], errors='ignore')

In [22]:
df = df.dropna()

In [23]:
df = df.drop_duplicates()

In [24]:
scaler = StandardScaler()
df['thumbsUpCount_scaled'] = scaler.fit_transform(df[['thumbsUpCount']])

In [25]:
Q1 = df['thumbsUpCount'].quantile(0.25)
Q3 = df['thumbsUpCount'].quantile(0.75)
IQR = Q3 - Q1


In [26]:
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

df = df[
    (df['thumbsUpCount'] >= lower_bound) &
    (df['thumbsUpCount'] <= upper_bound)
]

In [27]:
def sentiment_label(score):
    if score <= 2:
        return 'negative'
    elif score == 3:
        return 'neutral'
    else:
        return 'positive'

df['sentiment'] = df['score'].apply(sentiment_label)


In [28]:
df.to_csv('ulasan_KAI_preprocessing.csv', index=False)