Clean data

In [7]:
import re

In [1]:
import pandas as pd

# Membaca dataset terlebih dahulu
df_shopee_cod = pd.read_csv("../data/shopee_review_scraped.csv")

# Memilih hanya kolom 'userName', 'score', 'at', 'content'
new_df = df_shopee_cod[['userName', 'score', 'at', 'content']]

# Menampilkan 5 baris pertama untuk cek hasil
new_df.head()


Unnamed: 0,userName,score,at,content
0,Pengguna Google,1,2025-03-15 13:05:26,Shopee yang sekarang kualitasnya bagus tetapi ...
1,Pengguna Google,4,2025-03-16 04:29:12,Apk belanja yang mudah dan beragam pilihan tok...
2,Pengguna Google,1,2025-03-15 14:16:55,"Tidak bisa melakukan pembayaran listrik, dan p..."
3,Pengguna Google,1,2025-03-15 05:13:35,"Sudah dua bulan, setiap buka langsung diarahin..."
4,Pengguna Google,1,2025-03-15 08:03:40,"Aplikasi paling ga jelas, hp ku restart ulang ..."


Data duplikat 

In [6]:
# Mengecek jumlah duplikasi dalam kolom 'content'
jumlah_duplikasi = new_df.duplicated(subset=['content']).sum()
print(f"Jumlah duplikasi dalam kolom 'content': {jumlah_duplikasi}")

Jumlah duplikasi dalam kolom 'content': 0


Menghapus Mention & Hashtag

In [8]:
def remove_mentions_hashtags(content):
    content = re.sub(r'@[A-Za-z0-9]+', ' ', content)  # Menghapus mention (@username)
    content = re.sub(r'#[A-Za-z0-9]+', ' ', content)  # Menghapus hashtag (#tag)
    return content

Menghapus URL

In [9]:
def remove_urls(content):
    return re.sub(r"http\S+", ' ', content)

Menghapus Angka

In [10]:
def remove_numbers(content):
    return re.sub(r'[0-9]+', ' ', content)

Menghapus Karakter Khusus & Tanda Baca

In [11]:
def remove_special_characters(content):
    return re.sub(r"[-()\"#/@;:<>{}'+=~|.!?,_]", " ", content)


Menghapus Emoji

In [12]:
def remove_emojis(content):
    return content.encode('ascii', 'ignore').decode('ascii')

Menghapus Karakter Berulang (3x atau lebih → jadi 1x)

In [13]:
def replace_repeated_characters(content):
    pola = re.compile(r'(.)\1{2,}', re.DOTALL)
    return pola.sub(r'\1', content)


 Case Folding (Mengubah ke Huruf Kecil)

In [14]:
def case_folding(content):
    return content.lower().strip()

Menerapkan Fungsi ke DataFrame

In [15]:
new_df_copy = new_df.copy()

new_df_copy['No Mentions & Hashtags'] = new_df_copy['content'].apply(remove_mentions_hashtags)
new_df_copy['No URLs'] = new_df_copy['No Mentions & Hashtags'].apply(remove_urls)
new_df_copy['No Numbers'] = new_df_copy['No URLs'].apply(remove_numbers)
new_df_copy['No Special Characters'] = new_df_copy['No Numbers'].apply(remove_special_characters)
new_df_copy['No Emojis'] = new_df_copy['No Special Characters'].apply(remove_emojis)
new_df_copy['No Repeated Characters'] = new_df_copy['No Emojis'].apply(replace_repeated_characters)
new_df_copy['Case Folding'] = new_df_copy['No Repeated Characters'].apply(case_folding)

sorted_df = new_df_copy.sort_values(by='at', ascending=False)

In [17]:
new_df_copy.head()

Unnamed: 0,userName,score,at,content,No Mentions & Hashtags,No URLs,No Numbers,No Special Characters,No Emojis,No Repeated Characters,Case Folding
0,Pengguna Google,1,2025-03-15 13:05:26,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,shopee yang sekarang kualitasnya bagus tetapi ...
1,Pengguna Google,4,2025-03-16 04:29:12,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,apk belanja yang mudah dan beragam pilihan tok...
2,Pengguna Google,1,2025-03-15 14:16:55,"Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...",Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,tidak bisa melakukan pembayaran listrik dan p...
3,Pengguna Google,1,2025-03-15 05:13:35,"Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...",Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,sudah dua bulan setiap buka langsung diarahin...
4,Pengguna Google,1,2025-03-15 08:03:40,"Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...",Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,aplikasi paling ga jelas hp ku restart ulang ...


Tokenisasi

In [19]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [21]:
from nltk.tokenize import word_tokenize

def tokenizing_text(content):
    return word_tokenize(content)

# Menerapkan tokenisasi ke kolom "Case Folding"
new_df_copy['Tokenizing'] = new_df_copy['Case Folding'].apply(tokenizing_text)


In [22]:
new_df_copy.head()

Unnamed: 0,userName,score,at,content,No Mentions & Hashtags,No URLs,No Numbers,No Special Characters,No Emojis,No Repeated Characters,Case Folding,Tokenizing
0,Pengguna Google,1,2025-03-15 13:05:26,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,shopee yang sekarang kualitasnya bagus tetapi ...,"[shopee, yang, sekarang, kualitasnya, bagus, t..."
1,Pengguna Google,4,2025-03-16 04:29:12,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,apk belanja yang mudah dan beragam pilihan tok...,"[apk, belanja, yang, mudah, dan, beragam, pili..."
2,Pengguna Google,1,2025-03-15 14:16:55,"Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...",Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,tidak bisa melakukan pembayaran listrik dan p...,"[tidak, bisa, melakukan, pembayaran, listrik, ..."
3,Pengguna Google,1,2025-03-15 05:13:35,"Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...",Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,sudah dua bulan setiap buka langsung diarahin...,"[sudah, dua, bulan, setiap, buka, langsung, di..."
4,Pengguna Google,1,2025-03-15 08:03:40,"Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...",Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,aplikasi paling ga jelas hp ku restart ulang ...,"[aplikasi, paling, ga, jelas, hp, ku, restart,..."


Formalisasi

In [23]:
def convertToSlangword(tokens):
    # Load slang word dictionary from a file
    with open("../data/slangwords.txt", "r") as file:
        kamusSlang = eval(file.read())

    pattern = re.compile(r'\b(' + '|'.join(kamusSlang.keys()) + r')\b')
    content = []

    for kata in tokens:
        filterSlang = pattern.sub(lambda x: kamusSlang[x.group()], kata)
        content.append(filterSlang.lower())

    return content

# Assuming 'new_df' contains the data
new_df_copy['Formalisasi'] = new_df_copy['Tokenizing'].apply(convertToSlangword)

In [24]:
new_df_copy.head()

Unnamed: 0,userName,score,at,content,No Mentions & Hashtags,No URLs,No Numbers,No Special Characters,No Emojis,No Repeated Characters,Case Folding,Tokenizing,Formalisasi
0,Pengguna Google,1,2025-03-15 13:05:26,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,shopee yang sekarang kualitasnya bagus tetapi ...,"[shopee, yang, sekarang, kualitasnya, bagus, t...","[shopee, yang, sekarang, kualitasnya, bagus, t..."
1,Pengguna Google,4,2025-03-16 04:29:12,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,apk belanja yang mudah dan beragam pilihan tok...,"[apk, belanja, yang, mudah, dan, beragam, pili...","[aplikasi, belanja, yang, mudah, dan, beragam,..."
2,Pengguna Google,1,2025-03-15 14:16:55,"Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...",Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,tidak bisa melakukan pembayaran listrik dan p...,"[tidak, bisa, melakukan, pembayaran, listrik, ...","[tidak, bisa, melakukan, pembayaran, listrik, ..."
3,Pengguna Google,1,2025-03-15 05:13:35,"Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...",Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,sudah dua bulan setiap buka langsung diarahin...,"[sudah, dua, bulan, setiap, buka, langsung, di...","[sudah, dua, bulan, setiap, buka, langsung, di..."
4,Pengguna Google,1,2025-03-15 08:03:40,"Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...",Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,aplikasi paling ga jelas hp ku restart ulang ...,"[aplikasi, paling, ga, jelas, hp, ku, restart,...","[aplikasi, paling, ga, jelas, seluler, ku, res..."


Penghapusan Stopwords (stopwordText)

In [25]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

daftar_stopword = stopwords.words('indonesian')
# Append additional stopwords
daftar_stopword.extend(["yg", "dg", "rt"])  # Tambahan kata stopword manual
daftar_stopword = set(daftar_stopword)  # Konversi ke set untuk efisiensi

def stopwordText(words):
    return [word for word in words if word not in daftar_stopword]

# Menghapus stopwords dari hasil tokenisasi
new_df_copy['WithoutStopwords'] = new_df_copy['Tokenizing'].apply(stopwordText)


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Lenovo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Stemming (stemmingText)

In [26]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import swifter

factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stemmed_wrapper(term):
    return stemmer.stem(term)

term_dict = {}

# Membangun kamus kata-kata yang sudah di-stem
for document in new_df_copy['WithoutStopwords']:
    for term in document:
        if term not in term_dict:
            term_dict[term] = ' '  # Placeholder

# Proses stemming
for term in term_dict:
    term_dict[term] = stemmed_wrapper(term)
    print(term, ":", term_dict[term])  # Debugging untuk melihat hasil stemming

def stemmingText(document):
    return [term_dict[term] for term in document]

# Menerapkan stemming ke teks
new_df_copy['Stemming'] = new_df_copy['WithoutStopwords'].swifter.apply(stemmingText)


  from .autonotebook import tqdm as notebook_tqdm


shopee : shopee
kualitasnya : kualitas
bagus : bagus
parahnya : parah
pengiriman : kirim
sistemnya : sistem
mengutamakan : utama
ekspedisi : ekspedisi
express : express
pelanggan : langgan
kecewa : kecewa
paket : paket
x : x
dilaporan : lapor
kurir : kurir
ditugaskan : tugas
diantar : antar
kurirnya : kurir
wa : wa
diantarkan : antar
menanggapi : tanggap
paketnya : paket
laporannya : lapor
penerima : terima
ditempat : tempat
dihubungi : hubung
dikembalikan : kembali
pengirim : kirim
gila : gila
gak : gak
sih : sih
apk : apk
belanja : belanja
mudah : mudah
beragam : agam
pilihan : pilih
toko : toko
terpercaya : percaya
voucher : voucher
terkadang : terkadang
ongkos : ongkos
kirim : kirim
mahal : mahal
promo : promo
menarik : tarik
event : event
transparan : transparan
mengadakan : ada
flash : flash
sale : sale
tanggal : tanggal
cantik : cantik
masyarakat : masyarakat
bingung : bingung
serba : serba
kali : kali
mengikuti : ikut
tsb : tsb
minim : minim
peluang : peluang
hadiah : hadiah
ka

Pandas Apply: 100%|██████████| 5000/5000 [00:00<00:00, 348283.12it/s]


In [27]:
new_df_copy.head()

Unnamed: 0,userName,score,at,content,No Mentions & Hashtags,No URLs,No Numbers,No Special Characters,No Emojis,No Repeated Characters,Case Folding,Tokenizing,Formalisasi,WithoutStopwords,Stemming
0,Pengguna Google,1,2025-03-15 13:05:26,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,shopee yang sekarang kualitasnya bagus tetapi ...,"[shopee, yang, sekarang, kualitasnya, bagus, t...","[shopee, yang, sekarang, kualitasnya, bagus, t...","[shopee, kualitasnya, bagus, parahnya, pengiri...","[shopee, kualitas, bagus, parah, kirim, sistem..."
1,Pengguna Google,4,2025-03-16 04:29:12,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,apk belanja yang mudah dan beragam pilihan tok...,"[apk, belanja, yang, mudah, dan, beragam, pili...","[aplikasi, belanja, yang, mudah, dan, beragam,...","[apk, belanja, mudah, beragam, pilihan, toko, ...","[apk, belanja, mudah, agam, pilih, toko, perca..."
2,Pengguna Google,1,2025-03-15 14:16:55,"Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...",Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,tidak bisa melakukan pembayaran listrik dan p...,"[tidak, bisa, melakukan, pembayaran, listrik, ...","[tidak, bisa, melakukan, pembayaran, listrik, ...","[pembayaran, listrik, pembayaran, tulisan, dow...","[bayar, listrik, bayar, tulis, downloading, mu..."
3,Pengguna Google,1,2025-03-15 05:13:35,"Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...",Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,sudah dua bulan setiap buka langsung diarahin...,"[sudah, dua, bulan, setiap, buka, langsung, di...","[sudah, dua, bulan, setiap, buka, langsung, di...","[buka, langsung, diarahin, live, video, suka, ...","[buka, langsung, diarahin, live, video, suka, ..."
4,Pengguna Google,1,2025-03-15 08:03:40,"Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...",Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,aplikasi paling ga jelas hp ku restart ulang ...,"[aplikasi, paling, ga, jelas, hp, ku, restart,...","[aplikasi, paling, ga, jelas, seluler, ku, res...","[aplikasi, ga, hp, ku, restart, ulang, datanya...","[aplikasi, ga, hp, ku, restart, ulang, data, h..."


In [28]:
from googletrans import Translator

translator = Translator()

def translate_to_english(text):
    try:
        return translator.translate(" ".join(text), dest='en').text
    except:
        return "Translation Error"

# Menerapkan terjemahan ke kolom hasil stemming
new_df_copy['EnglishTranslation'] = new_df_copy['Stemming'].apply(translate_to_english)


In [31]:
new_df_copy.head()

Unnamed: 0,userName,score,at,content,No Mentions & Hashtags,No URLs,No Numbers,No Special Characters,No Emojis,No Repeated Characters,Case Folding,Tokenizing,Formalisasi,WithoutStopwords,Stemming,EnglishTranslation
0,Pengguna Google,1,2025-03-15 13:05:26,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,shopee yang sekarang kualitasnya bagus tetapi ...,"[shopee, yang, sekarang, kualitasnya, bagus, t...","[shopee, yang, sekarang, kualitasnya, bagus, t...","[shopee, kualitasnya, bagus, parahnya, pengiri...","[shopee, kualitas, bagus, parah, kirim, sistem...",Shopee Good quality Severe Sending the main sy...
1,Pengguna Google,4,2025-03-16 04:29:12,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,apk belanja yang mudah dan beragam pilihan tok...,"[apk, belanja, yang, mudah, dan, beragam, pili...","[aplikasi, belanja, yang, mudah, dan, beragam,...","[apk, belanja, mudah, beragam, pilihan, toko, ...","[apk, belanja, mudah, agam, pilih, toko, perca...",Apk Shopping Easily Agam Choose a Shop Believe...
2,Pengguna Google,1,2025-03-15 14:16:55,"Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...",Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,tidak bisa melakukan pembayaran listrik dan p...,"[tidak, bisa, melakukan, pembayaran, listrik, ...","[tidak, bisa, melakukan, pembayaran, listrik, ...","[pembayaran, listrik, pembayaran, tulisan, dow...","[bayar, listrik, bayar, tulis, downloading, mu...",Pay Electricity Pay Write Download the Loading...
3,Pengguna Google,1,2025-03-15 05:13:35,"Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...",Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,sudah dua bulan setiap buka langsung diarahin...,"[sudah, dua, bulan, setiap, buka, langsung, di...","[sudah, dua, bulan, setiap, buka, langsung, di...","[buka, langsung, diarahin, live, video, suka, ...","[buka, langsung, diarahin, live, video, suka, ...",Open directly on Live Video like the method of...
4,Pengguna Google,1,2025-03-15 08:03:40,"Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...",Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,aplikasi paling ga jelas hp ku restart ulang ...,"[aplikasi, paling, ga, jelas, hp, ku, restart,...","[aplikasi, paling, ga, jelas, seluler, ku, res...","[aplikasi, ga, hp, ku, restart, ulang, datanya...","[aplikasi, ga, hp, ku, restart, ulang, data, h...",The application is not re -restarted the data ...


Export to csv

In [37]:
new_df_copy.to_csv('../data/data_clean/hasil_cleaning.csv', index=False, encoding='utf-8')

In [38]:
import pandas as pd

# Membaca dataset terlebih dahulu
tes = pd.read_csv("../data/data_clean/hasil_cleaning.csv", on_bad_lines='skip')

# Menampilkan 5 baris pertama untuk cek hasil
tes.head()


Unnamed: 0,userName,score,at,content,No Mentions & Hashtags,No URLs,No Numbers,No Special Characters,No Emojis,No Repeated Characters,Case Folding,Tokenizing,Formalisasi,WithoutStopwords,Stemming,EnglishTranslation
0,Pengguna Google,1,2025-03-15 13:05:26,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,Shopee yang sekarang kualitasnya bagus tetapi ...,shopee yang sekarang kualitasnya bagus tetapi ...,"['shopee', 'yang', 'sekarang', 'kualitasnya', ...","['shopee', 'yang', 'sekarang', 'kualitasnya', ...","['shopee', 'kualitasnya', 'bagus', 'parahnya',...","['shopee', 'kualitas', 'bagus', 'parah', 'kiri...",Shopee Good quality Severe Sending the main sy...
1,Pengguna Google,4,2025-03-16 04:29:12,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,Apk belanja yang mudah dan beragam pilihan tok...,apk belanja yang mudah dan beragam pilihan tok...,"['apk', 'belanja', 'yang', 'mudah', 'dan', 'be...","['aplikasi', 'belanja', 'yang', 'mudah', 'dan'...","['apk', 'belanja', 'mudah', 'beragam', 'piliha...","['apk', 'belanja', 'mudah', 'agam', 'pilih', '...",Apk Shopping Easily Agam Choose a Shop Believe...
2,Pengguna Google,1,2025-03-15 14:16:55,"Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...","Tidak bisa melakukan pembayaran listrik, dan p...",Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,Tidak bisa melakukan pembayaran listrik dan p...,tidak bisa melakukan pembayaran listrik dan p...,"['tidak', 'bisa', 'melakukan', 'pembayaran', '...","['tidak', 'bisa', 'melakukan', 'pembayaran', '...","['pembayaran', 'listrik', 'pembayaran', 'tulis...","['bayar', 'listrik', 'bayar', 'tulis', 'downlo...",Pay Electricity Pay Write Download the Loading...
3,Pengguna Google,1,2025-03-15 05:13:35,"Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...","Sudah dua bulan, setiap buka langsung diarahin...",Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,Sudah dua bulan setiap buka langsung diarahin...,sudah dua bulan setiap buka langsung diarahin...,"['sudah', 'dua', 'bulan', 'setiap', 'buka', 'l...","['sudah', 'dua', 'bulan', 'setiap', 'buka', 'l...","['buka', 'langsung', 'diarahin', 'live', 'vide...","['buka', 'langsung', 'diarahin', 'live', 'vide...",Open directly on Live Video like the method of...
4,Pengguna Google,1,2025-03-15 08:03:40,"Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...","Aplikasi paling ga jelas, hp ku restart ulang ...",Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,Aplikasi paling ga jelas hp ku restart ulang ...,aplikasi paling ga jelas hp ku restart ulang ...,"['aplikasi', 'paling', 'ga', 'jelas', 'hp', 'k...","['aplikasi', 'paling', 'ga', 'jelas', 'seluler...","['aplikasi', 'ga', 'hp', 'ku', 'restart', 'ula...","['aplikasi', 'ga', 'hp', 'ku', 'restart', 'ula...",The application is not re -restarted the data ...
