# **Pre-Processing Data 🚀🚀🚀**

##### **Import Library**
Pada bagian ini, kita akan mengimpor library yang diperlukan untuk proses pre-processing
 data, seperti pandas untuk manipulasi data, numpy untuk operasi numerik, dan library lain yang relevan sesuai kebutuhan analisis.

In [1]:
import pandas as pd
import numpy as np

##### **Load Dataset**
Pada bagian ini, kita akan memuat dataset yang akan digunakan untuk analisis. Pastikan file dataset sudah tersedia di direktori kerja, lalu gunakan fungsi yang sesuai (misal: `pd.read_csv`) untuk membaca data ke dalam DataFrame pandas.

In [2]:
# Load dataset ke dalam DataFrame
# Ganti 'nama_file.csv' dengan nama file dataset yang sesuai
df = pd.read_csv('../data/data_untuk_preprocessing.csv')

# Tampilkan 5 baris pertama dan jumlah baris data
display(df.head())
print(f"Jumlah baris data: {df.shape[0]}")

Unnamed: 0,title,address,url,reviewId,stars,name,reviewUrl,text,publishedAtDate,reviewDetailedRating/Layanan,reviewDetailedRating/Makanan,reviewDetailedRating/Suasana
0,Solaria - Lampung City Mall,"Jl. Yos Sudarso No.44, Tlk. Betung, Kec. Bumi ...",https://www.google.com/maps/search/?api=1&quer...,Ci9DQUlRQUNvZENodHljRjlvT21wSmFIbzRWa053TWtObF...,3,CERMIN by Heno Soeroso,https://www.google.com/maps/reviews/data=!4m8!...,Pu Yung hai rasanya kaya bakwan dikasih saos a...,2025-05-29T03:10:20.007Z,3.0,3.0,3.0
1,Solaria - Lampung City Mall,"Jl. Yos Sudarso No.44, Tlk. Betung, Kec. Bumi ...",https://www.google.com/maps/search/?api=1&quer...,ChdDSUhNMG9nS0VJQ0FnTURvMUozeHl3RRAB,5,Rudy Ramadani,https://www.google.com/maps/reviews/data=!4m8!...,Makan disini beberapa menu makananya sangat en...,2025-04-22T07:03:28.979Z,2.0,5.0,5.0
2,Solaria - Lampung City Mall,"Jl. Yos Sudarso No.44, Tlk. Betung, Kec. Bumi ...",https://www.google.com/maps/search/?api=1&quer...,ChZDSUhNMG9nS0VJQ0FnTUNvbmE2REhREAE,5,sandi ariyadi,https://www.google.com/maps/reviews/data=!4m8!...,Front liner nya ramah...tempat bersih makanan ...,2025-04-19T06:39:55.229Z,5.0,5.0,5.0
3,Solaria - Lampung City Mall,"Jl. Yos Sudarso No.44, Tlk. Betung, Kec. Bumi ...",https://www.google.com/maps/search/?api=1&quer...,ChZDSUhNMG9nS0VJQ0FnTURJbTh5X05nEAE,2,Jhonny Sanjaya,https://www.google.com/maps/reviews/data=!4m8!...,"Tolong untuk crew dapur / Chefnya , saya beli ...",2025-04-13T06:24:40.622Z,4.0,1.0,3.0
4,Solaria - Lampung City Mall,"Jl. Yos Sudarso No.44, Tlk. Betung, Kec. Bumi ...",https://www.google.com/maps/search/?api=1&quer...,ChdDSUhNMG9nS0VJQ0FnTUNJdzR1ODNnRRAB,3,Daryono Wardoyo,https://www.google.com/maps/reviews/data=!4m8!...,"makan bareng ma keluarga kebagian pas di luar,...",2025-04-04T09:15:40.488Z,,,


Jumlah baris data: 54124


##### **Cek & Hapus Duplikat**
Bagian ini bertujuan untuk memeriksa apakah terdapat data duplikat pada dataset. Data duplikat dapat menyebabkan bias atau hasil analisis yang tidak akurat. Jika ditemukan, data duplikat akan dihapus agar data yang digunakan untuk analisis benar-benar unik dan representatif.

In [3]:
# Cek & Hapus Duplikat Berdasarkan Kolom 'reviewId'
# Pastikan kolom 'reviewId' ada di DataFrame
if 'reviewId' in df.columns:
    jumlah_duplikat = df.duplicated(subset='reviewId').sum()
    print(f"Jumlah data duplikat berdasarkan 'reviewId': {jumlah_duplikat}")

    # Hapus duplikat dan simpan ke df
    df = df.drop_duplicates(subset='reviewId', keep='first')
    print(f"Jumlah data setelah menghapus duplikat: {len(df)}")
else:
    print("Kolom 'reviewId' tidak ditemukan pada DataFrame.")

Jumlah data duplikat berdasarkan 'reviewId': 4500
Jumlah data setelah menghapus duplikat: 49624


##### Cek & Tangani Missing Value
Bagian ini bertujuan untuk memeriksa apakah terdapat data yang hilang (missing value) pada dataset. Data yang hilang dapat mempengaruhi hasil analisis dan modeling, sehingga perlu diidentifikasi dan ditangani dengan tepat. Proses ini meliputi pengecekan jumlah missing value di setiap kolom serta strategi penanganannya, seperti menghapus baris/kolom yang memiliki banyak missing value atau mengisi nilai yang hilang dengan metode tertentu (imputasi).

Cek Missing Value

In [4]:
# Cek jumlah missing value pada setiap kolom
missing_values = df.isnull().sum()
print("Jumlah missing value per kolom:")
print(missing_values)

Jumlah missing value per kolom:
title                               0
address                             0
url                                 0
reviewId                            0
stars                               0
name                                0
reviewUrl                           0
text                            27207
publishedAtDate                     0
reviewDetailedRating/Layanan    16228
reviewDetailedRating/Makanan    16285
reviewDetailedRating/Suasana    16645
dtype: int64


Missing Value pada Kolom text diabaikan

Missing Value pada Kolom reviewDetailedRating/Layanan, reviewDetailedRating/Makanan, reviewDetailedRating/Suasana diisi dengan nilai stars

In [5]:
# Imputasi missing value pada kolom rating detail dengan nilai dari kolom 'stars'
cols_to_fill = [
    'reviewDetailedRating/Layanan',
    'reviewDetailedRating/Makanan',
    'reviewDetailedRating/Suasana'
]

for col in cols_to_fill:
    df[col] = df[col].fillna(df['stars'])

print("Imputasi missing value pada kolom rating detail dengan nilai dari kolom 'stars' selesai.")

Imputasi missing value pada kolom rating detail dengan nilai dari kolom 'stars' selesai.


##### Feature Engineering
Pada tahap feature engineering, kita akan membuat fitur-fitur baru atau memodifikasi fitur yang sudah ada untuk meningkatkan kualitas data sebelum digunakan dalam analisis atau pemodelan. 

Feature engineering yang dilakukan antara lain: 
- Mengubah isi tanggal review (publishedAtDate) yang awalnya seperti 2025-05-29T03:10:20.007Z menjadi 2025-05-29
- Membuat fitur panjang teks review (textLength) dari text review (text)

Proses ini bertujuan agar data lebih informatif dan relevan untuk analisis selanjutnya.

In [6]:
# Feature Engineering

# 1. Ubah format tanggal 'publishedAtDate' menjadi hanya tanggal (YYYY-MM-DD)
df['publishedAtDate'] = pd.to_datetime(df['publishedAtDate']).dt.date

# 2. Buat fitur panjang teks review (textLength)
df['textLength'] = df['text'].fillna('').apply(len)

# Tampilkan 5 baris pertama hasil feature engineering
display(df[['publishedAtDate', 'text', 'textLength']].head())

Unnamed: 0,publishedAtDate,text,textLength
0,2025-05-29,Pu Yung hai rasanya kaya bakwan dikasih saos a...,57
1,2025-04-22,Makan disini beberapa menu makananya sangat en...,591
2,2025-04-19,Front liner nya ramah...tempat bersih makanan ...,76
3,2025-04-13,"Tolong untuk crew dapur / Chefnya , saya beli ...",260
4,2025-04-04,"makan bareng ma keluarga kebagian pas di luar,...",152



##### Filter Data

Bagian ini digunakan untuk melakukan filter data sesuai kriteria tertentu : 
- Review yang dibutuhkan hanya review 1 tahun terakhir (gunakan kolom "publishedAtDate").
- Hapus tempat yang memiliki review kurang dari 100 dalam 1 tahun terakhir
- Sesuaikan nama kolom agar lebih mudah dipahami.

Filter data bertujuan untuk memastikan hanya data yang sesuai dan berkualitas yang digunakan pada tahap selanjutnya, sehingga hasil analisis menjadi lebih akurat dan fokus pada permasalahan yang ingin dikaji.



Review yang dibutuhkan hanya review 1 tahun terakhir (gunakan kolom "publishedAtDate")

In [7]:
print(f"Jumlah review : {len(df)}")

# Filter review 1 tahun terakhir berdasarkan kolom 'publishedAtDate'
from datetime import datetime, timedelta

# Pastikan kolom 'publishedAtDate' sudah bertipe datetime.date
if df['publishedAtDate'].dtype != 'O':
    # Sudah bertipe date
    today = datetime.today().date()
else:
    # Konversi ke datetime.date
    df['publishedAtDate'] = pd.to_datetime(df['publishedAtDate']).dt.date
    today = datetime.today().date()

# Ambil tanggal 1 tahun yang lalu dari hari ini
one_year_ago = today - timedelta(days=365)

# Filter data
df = df[df['publishedAtDate'] >= one_year_ago]

print(f"Jumlah review 1 tahun terakhir: {len(df)}")

Jumlah review : 49624
Jumlah review 1 tahun terakhir: 37559


Sesuaikan nama kolom agar lebih mudah dipahami

In [8]:
# # tampilkan semua nama kolom
# print("Nama-nama kolom:")
# print(df.columns.tolist())

# Ganti nama kolom agar lebih mudah dipahami
df = df.rename(columns={
    'title': 'nama_tempat',
    'address': 'alamat',
    'url': 'url_tempat',
    'reviewId': 'id_review',
    'stars': 'rating_bintang',
    'name': 'nama_reviewer',
    'reviewUrl': 'url_review',
    'text': 'isi_review',
    'publishedAtDate': 'tanggal_review',
    'reviewDetailedRating/Layanan': 'rating_layanan',
    'reviewDetailedRating/Makanan': 'rating_makanan',
    'reviewDetailedRating/Suasana': 'rating_suasana',
    'textLength': 'panjang_review'
})

print("Nama-nama kolom setelah diganti:")
print(df.columns.tolist())

Nama-nama kolom setelah diganti:
['nama_tempat', 'alamat', 'url_tempat', 'id_review', 'rating_bintang', 'nama_reviewer', 'url_review', 'isi_review', 'tanggal_review', 'rating_layanan', 'rating_makanan', 'rating_suasana', 'panjang_review']


Filter Data Tempat yang memiliki review lebih dari 100 untuk analisis popularitas

In [9]:
# Jumlah data sebelum filter
print(f"Jumlah data sebelum filter: {len(df)}") 

# Hitung jumlah review unik per tempat (nama_tempat)
review_count_per_place = (
    df.groupby('nama_tempat')['id_review']
    .nunique()
    .reset_index(name='jumlah_review')
    .sort_values('jumlah_review', ascending=False)
)

print("Jumlah review per tempat:")
display(review_count_per_place)

# Filter tempat dengan jumlah review >= threshold
threshold_review = 100
review_count_filtered = review_count_per_place[review_count_per_place['jumlah_review'] >= threshold_review]

print(f"Tempat dengan jumlah review >= {threshold_review}: {len(review_count_filtered)}")
display(review_count_filtered)

# Drop tempat yang tidak memenuhi threshold dari DataFrame asli, gunakan .copy() agar aman
df_filtered = df[df['nama_tempat'].isin(review_count_filtered['nama_tempat'])].copy()
print(f"Jumlah data setelah filter tempat dengan review >= {threshold_review}: {len(df_filtered)}")

# Simpan DataFrame yang sudah difilter ke file CSV baru (untuk analisis popularitas)
output_file = '../data/processed/data_untuk_analisis_popularitas.csv'
df_filtered.to_csv(output_file, index=False)
print(f"Data telah disimpan ke {output_file}")

Jumlah data sebelum filter: 37559
Jumlah review per tempat:


Unnamed: 0,nama_tempat,jumlah_review
63,Mie Gacoan Kedaton,7769
45,Kampung Kecil,3823
164,WaHaHa Seafood,3716
65,Mie Gacoan Way Halim,3296
64,Mie Gacoan Lampung Antasari,2877
...,...,...
8,Ayam bakar mas gendut,1
36,Emerald bistro,1
122,Raja Murah,1
167,Warung Mak Gendut Teluk Betung,1


Tempat dengan jumlah review >= 100: 31


Unnamed: 0,nama_tempat,jumlah_review
63,Mie Gacoan Kedaton,7769
45,Kampung Kecil,3823
164,WaHaHa Seafood,3716
65,Mie Gacoan Way Halim,3296
64,Mie Gacoan Lampung Antasari,2877
173,Zozo Garden | Cafe Lampung,2752
62,Mie Gacoan Diponegoro,2352
23,Bebek Carok - Lampung,1052
155,Skaye Lampung Cafe and Resto,934
31,D'RAJASH RESTO,449


Jumlah data setelah filter tempat dengan review >= 100: 33370
Data telah disimpan ke ../data/processed/data_untuk_analisis_popularitas.csv


##### Bersihkan Data Teks
Pada tahap ini, data teks pada kolom `isi_review` akan dibersihkan agar siap digunakan untuk analisis lebih lanjut. Proses pembersihan data teks meliputi penghapusan karakter khusus dan spasi berlebih, serta normalisasi teks jika diperlukan. Pada tahap ini **tidak dilakukan penghapusan angka, tanda baca, maupun konversi ke huruf kecil (lowercase)**, agar informasi penting yang mungkin terkandung dalam angka atau tanda baca tetap terjaga dan sesuai dengan kebutuhan analisis sentimen yang akan dilakukan.

In [10]:
import re
import unicodedata

# --- Pembersihan Teks ---
def bersihkan_teks(teks):
    if pd.isnull(teks):
        return ""
    # Normalisasi unicode (menghilangkan karakter aneh)
    teks = unicodedata.normalize('NFKC', teks)
    # Hilangkan karakter khusus (kecuali angka, huruf, tanda baca umum)
    teks = re.sub(r'[^\w\s,.!?-]', '', teks)
    # Hilangkan spasi berlebih
    teks = re.sub(r'\s+', ' ', teks).strip()
    return teks

df_filtered['isi_review'] = df_filtered['isi_review'].apply(bersihkan_teks)

# Hapus baris review kosong (opsional)
df_filtered = df_filtered[df_filtered['isi_review'].str.strip() != '']

# Simpan DataFrame yang sudah dibersihkan ke file CSV baru (untuk analisis sentimen)
output_cleaned_file = '../data/processed/data_untuk_analisis_sentimen.csv'
df_filtered.to_csv(output_cleaned_file, index=False)
print(f"Jumlah data setelah pembersihan: {len(df_filtered)}")
print(f"Data telah dibersihkan dan disimpan ke {output_cleaned_file}")

Jumlah data setelah pembersihan: 14778
Data telah dibersihkan dan disimpan ke ../data/processed/data_untuk_analisis_sentimen.csv
