# Data Preprocessing

## Load Data

In [11]:
import pandas as pd

df = pd.read_csv('../data/raw/review_tiktok_dataset.csv')
df.head()

Unnamed: 0,at,reviewId,userName,score,content
0,2025-07-01 18:59:48,d6b3a4be-536b-4c5b-a4a9-46056c133e10,Pengguna Google,1,saya sudah berkali² stuck saat mau masuk tikto...
1,2025-07-01 06:19:18,fe657a00-c516-475b-ac8f-69a8f9c7d6d8,Pengguna Google,3,apk ini jujur bagus sih... cuman gmn ya? aku s...
2,2025-06-30 08:16:34,5b1112d4-1947-4005-9cec-6ca3becf1e01,Pengguna Google,1,"tolong dong d perbaiki,setiap Saya buka tiktok..."
3,2025-07-01 07:21:18,10b4e614-70ba-4d26-af54-391beb7754ce,Pengguna Google,4,apk ini memang bgus cuma benerin dong sedikit ...
4,2025-07-01 20:12:54,384feee2-91b6-4a7d-bba1-d967f8d2ca1e,Pengguna Google,1,kalau aku ngeser ke atas pasti itu lagu jadi l...


## Cleaning Data

In [None]:
import re
import string
import nltk

def remove_url(review):
  if review is not None and isinstance(review, str):
    url = re.compile(r'https?://\S+|www\.\S+')
    return url.sub(r'', review)
  else:
    return review

def remove_html(review):
  if review is not None and isinstance(review, str):
    html = re.compile(r'<.*?>')
    return html.sub(r'', review)
  else:
    return review

def remove_emoji(review):
    if review is not None and isinstance(review, str):
        emoji_pattern = re.compile(
            "["
            u"\U0001F600-\U0001F64F"  # Emoticons
            u"\U0001F300-\U0001F5FF"  # Symbols & Pictographs
            u"\U0001F680-\U0001F6FF"  # Transport & Map Symbols
            u"\U0001F1E0-\U0001F1FF"  # Flags
            u"\U00002702-\U000027B0"  # Dingbats
            u"\U000024C2-\U0001F251"  # Enclosed characters
            u"\U0001F900-\U0001F9FF"  # Supplemental Symbols and Pictographs
            u"\U0001FA70-\U0001FAFF"  # Symbols and Pictographs Extended-A
            u"\U0001F000-\U0001F02F"  # Mahjong Tiles
            u"\U0001F0A0-\U0001F0FF"  # Playing Cards
            u"\U0001F650-\U0001F67F"  # Ornamental Dingbats
            u"\U0001F780-\U0001F7FF"  # Geometric Shapes Extended
            u"\U0001F800-\U0001F8FF"  # Supplemental Arrows-C
            u"\U00002600-\U000026FF"  # Misc symbols
            u"\U00002B00-\U00002BFF"  # Arrows + misc symbols
            u"\U0000200D"             # Zero Width Joiner
            u"\U00002300-\U000023FF"  # Misc Technical
            u"\U000025A0-\U000025FF"  # Geometric Shapes
            u"\U00002100-\U0000214F"  # Letterlike symbols
            u"\U0001D000-\U0001D24F"  # Musical notation
            u"\U0001F1E6-\U0001F1FF"  # Regional country flags
            u"\U0001F191-\U0001F251"  # Enclosed ideographic supplement
            u"\u2600-\u26FF"          # Miscellaneous Symbols
            u"\u2700-\u27BF"          # Dingbats
            u"\uFE0F"                 # Variation Selectors
            u"\u3030"                 # Wavy Dash
            "]+",
            flags=re.UNICODE
        )
        return emoji_pattern.sub(r'', review)
    else:
        return review

def remove_symbols(review):
    if review is not None and isinstance(review, str):
        review = re.sub(r'[^a-zA-Z0-9\s]', '', review)  # Jika ingin simpan spasi
        return review
    else:
        return review

def remove_number(review):
    if review is not None and isinstance(review, str):
        review = re.sub(r'\d', '', review)
        return review
    else:
        return review

df.loc[:, 'cleaning'] = df['content'].apply(remove_url)
df.loc[:, 'cleaning'] = df['cleaning'].apply(remove_html)
df.loc[:, 'cleaning'] = df['cleaning'].apply(remove_emoji)
df.loc[:, 'cleaning'] = df['cleaning'].apply(remove_symbols)
df.loc[:, 'cleaning'] = df['cleaning'].apply(remove_number)


df.head()

Unnamed: 0,at,reviewId,userName,score,content,cleaning
0,2025-07-01 18:59:48,d6b3a4be-536b-4c5b-a4a9-46056c133e10,Pengguna Google,1,saya sudah berkali² stuck saat mau masuk tikto...,saya sudah berkali stuck saat mau masuk tiktok...
1,2025-07-01 06:19:18,fe657a00-c516-475b-ac8f-69a8f9c7d6d8,Pengguna Google,3,apk ini jujur bagus sih... cuman gmn ya? aku s...,apk ini jujur bagus sih cuman gmn ya aku serin...
2,2025-06-30 08:16:34,5b1112d4-1947-4005-9cec-6ca3becf1e01,Pengguna Google,1,"tolong dong d perbaiki,setiap Saya buka tiktok...",tolong dong d perbaikisetiap Saya buka tiktok ...
3,2025-07-01 07:21:18,10b4e614-70ba-4d26-af54-391beb7754ce,Pengguna Google,4,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...
4,2025-07-01 20:12:54,384feee2-91b6-4a7d-bba1-d967f8d2ca1e,Pengguna Google,1,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...


## Case Folding

In [13]:
def case_folding(review):
    if isinstance(review, str):
        return review.lower()
    else:
        return review

df.loc[:, 'case_folding'] = df['cleaning'].apply(case_folding)

df.head()


Unnamed: 0,at,reviewId,userName,score,content,cleaning,case_folding
0,2025-07-01 18:59:48,d6b3a4be-536b-4c5b-a4a9-46056c133e10,Pengguna Google,1,saya sudah berkali² stuck saat mau masuk tikto...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...
1,2025-07-01 06:19:18,fe657a00-c516-475b-ac8f-69a8f9c7d6d8,Pengguna Google,3,apk ini jujur bagus sih... cuman gmn ya? aku s...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...
2,2025-06-30 08:16:34,5b1112d4-1947-4005-9cec-6ca3becf1e01,Pengguna Google,1,"tolong dong d perbaiki,setiap Saya buka tiktok...",tolong dong d perbaikisetiap Saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...
3,2025-07-01 07:21:18,10b4e614-70ba-4d26-af54-391beb7754ce,Pengguna Google,4,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...
4,2025-07-01 20:12:54,384feee2-91b6-4a7d-bba1-d967f8d2ca1e,Pengguna Google,1,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...


## Menghapus Kata Diperpanjang

In [14]:
from indoNLP.preprocessing import replace_word_elongation

def normalize_elongated_words(review):

    if isinstance(review, str):
        return replace_word_elongation(review)
    return review

df.loc[:, 'no_elongation'] = df['case_folding'].apply(normalize_elongated_words)
df.head()

Unnamed: 0,at,reviewId,userName,score,content,cleaning,case_folding,no_elongation
0,2025-07-01 18:59:48,d6b3a4be-536b-4c5b-a4a9-46056c133e10,Pengguna Google,1,saya sudah berkali² stuck saat mau masuk tikto...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...
1,2025-07-01 06:19:18,fe657a00-c516-475b-ac8f-69a8f9c7d6d8,Pengguna Google,3,apk ini jujur bagus sih... cuman gmn ya? aku s...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...
2,2025-06-30 08:16:34,5b1112d4-1947-4005-9cec-6ca3becf1e01,Pengguna Google,1,"tolong dong d perbaiki,setiap Saya buka tiktok...",tolong dong d perbaikisetiap Saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...
3,2025-07-01 07:21:18,10b4e614-70ba-4d26-af54-391beb7754ce,Pengguna Google,4,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...
4,2025-07-01 20:12:54,384feee2-91b6-4a7d-bba1-d967f8d2ca1e,Pengguna Google,1,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...


## Formalization

In [17]:
kamus_df = pd.read_excel('../data/raw/kamuskatabaku.xlsx')
kamus_dict = dict(zip(kamus_df['tidak_baku'], kamus_df['kata_baku']))

In [18]:
def normalize_words(text, kamus=kamus_dict):
    if not isinstance(text, str):
        return text

    tokens = text.split()

    normalized = [kamus.get(token, token) for token in tokens]

    return " ".join(normalized)

df.loc[:, 'formalization'] = df['no_elongation'].apply(normalize_words)
df.head()

Unnamed: 0,at,reviewId,userName,score,content,cleaning,case_folding,no_elongation,formalization
0,2025-07-01 18:59:48,d6b3a4be-536b-4c5b-a4a9-46056c133e10,Pengguna Google,1,saya sudah berkali² stuck saat mau masuk tikto...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...
1,2025-07-01 06:19:18,fe657a00-c516-475b-ac8f-69a8f9c7d6d8,Pengguna Google,3,apk ini jujur bagus sih... cuman gmn ya? aku s...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman bagaimana ya aku...
2,2025-06-30 08:16:34,5b1112d4-1947-4005-9cec-6ca3becf1e01,Pengguna Google,1,"tolong dong d perbaiki,setiap Saya buka tiktok...",tolong dong d perbaikisetiap Saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...,tolong dong di perbaikisetiap saya buka tiktok...
3,2025-07-01 07:21:18,10b4e614-70ba-4d26-af54-391beb7754ce,Pengguna Google,4,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bagus cuma benerin dong sedikit...
4,2025-07-01 20:12:54,384feee2-91b6-4a7d-bba1-d967f8d2ca1e,Pengguna Google,1,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...


## Tokenized

In [19]:
def tokenize(review):
    if isinstance(review, str):
        return review.split()
    else:
        return []

df.loc[:, 'tokenized'] = df['formalization'].apply(tokenize)
df.head()

Unnamed: 0,at,reviewId,userName,score,content,cleaning,case_folding,no_elongation,formalization,tokenized
0,2025-07-01 18:59:48,d6b3a4be-536b-4c5b-a4a9-46056c133e10,Pengguna Google,1,saya sudah berkali² stuck saat mau masuk tikto...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,"[saya, sudah, berkali, stuck, saat, mau, masuk..."
1,2025-07-01 06:19:18,fe657a00-c516-475b-ac8f-69a8f9c7d6d8,Pengguna Google,3,apk ini jujur bagus sih... cuman gmn ya? aku s...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman bagaimana ya aku...,"[apk, ini, jujur, bagus, sih, cuman, bagaimana..."
2,2025-06-30 08:16:34,5b1112d4-1947-4005-9cec-6ca3becf1e01,Pengguna Google,1,"tolong dong d perbaiki,setiap Saya buka tiktok...",tolong dong d perbaikisetiap Saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...,tolong dong di perbaikisetiap saya buka tiktok...,"[tolong, dong, di, perbaikisetiap, saya, buka,..."
3,2025-07-01 07:21:18,10b4e614-70ba-4d26-af54-391beb7754ce,Pengguna Google,4,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bagus cuma benerin dong sedikit...,"[apk, ini, memang, bagus, cuma, benerin, dong,..."
4,2025-07-01 20:12:54,384feee2-91b6-4a7d-bba1-d967f8d2ca1e,Pengguna Google,1,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,"[kalau, aku, ngeser, ke, atas, pasti, itu, lag..."


## Stopword Removal

In [20]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

factory = StopWordRemoverFactory()
default_stopwords = set(factory.get_stop_words())

keep_words = {'tidak', 'bukan', 'belum', 'jangan'}

custom_stopwords = default_stopwords - keep_words

In [21]:
def stopwords_removal(tokens):
    if isinstance(tokens, list):
        return [word for word in tokens if word.lower() not in custom_stopwords]
    else:
        return []

df.loc[:, 'stopword_removal'] = df['tokenized'].apply(stopwords_removal)
df.head()

Unnamed: 0,at,reviewId,userName,score,content,cleaning,case_folding,no_elongation,formalization,tokenized,stopword_removal
0,2025-07-01 18:59:48,d6b3a4be-536b-4c5b-a4a9-46056c133e10,Pengguna Google,1,saya sudah berkali² stuck saat mau masuk tikto...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,"[saya, sudah, berkali, stuck, saat, mau, masuk...","[berkali, stuck, mau, masuk, tiktok, stuck, lo..."
1,2025-07-01 06:19:18,fe657a00-c516-475b-ac8f-69a8f9c7d6d8,Pengguna Google,3,apk ini jujur bagus sih... cuman gmn ya? aku s...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman bagaimana ya aku...,"[apk, ini, jujur, bagus, sih, cuman, bagaimana...","[apk, jujur, bagus, sih, cuman, bagaimana, aku..."
2,2025-06-30 08:16:34,5b1112d4-1947-4005-9cec-6ca3becf1e01,Pengguna Google,1,"tolong dong d perbaiki,setiap Saya buka tiktok...",tolong dong d perbaikisetiap Saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...,tolong dong di perbaikisetiap saya buka tiktok...,"[tolong, dong, di, perbaikisetiap, saya, buka,...","[dong, perbaikisetiap, buka, tiktok, setuck, l..."
3,2025-07-01 07:21:18,10b4e614-70ba-4d26-af54-391beb7754ce,Pengguna Google,4,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bagus cuma benerin dong sedikit...,"[apk, ini, memang, bagus, cuma, benerin, dong,...","[apk, memang, bagus, cuma, benerin, dong, sedi..."
4,2025-07-01 20:12:54,384feee2-91b6-4a7d-bba1-d967f8d2ca1e,Pengguna Google,1,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,"[kalau, aku, ngeser, ke, atas, pasti, itu, lag...","[kalau, aku, ngeser, atas, lagu, jadi, lagu, d..."


## Steaming

In [22]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi stemming
def stemming(review):
  return [stemmer.stem(word) for word in review]

df.loc[:, 'stemming'] = df['stopword_removal'].apply(stemming)
df.head()

Unnamed: 0,at,reviewId,userName,score,content,cleaning,case_folding,no_elongation,formalization,tokenized,stopword_removal,stemming
0,2025-07-01 18:59:48,d6b3a4be-536b-4c5b-a4a9-46056c133e10,Pengguna Google,1,saya sudah berkali² stuck saat mau masuk tikto...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,saya sudah berkali stuck saat mau masuk tiktok...,"[saya, sudah, berkali, stuck, saat, mau, masuk...","[berkali, stuck, mau, masuk, tiktok, stuck, lo...","[kali, stuck, mau, masuk, tiktok, stuck, logo,..."
1,2025-07-01 06:19:18,fe657a00-c516-475b-ac8f-69a8f9c7d6d8,Pengguna Google,3,apk ini jujur bagus sih... cuman gmn ya? aku s...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman gmn ya aku serin...,apk ini jujur bagus sih cuman bagaimana ya aku...,"[apk, ini, jujur, bagus, sih, cuman, bagaimana...","[apk, jujur, bagus, sih, cuman, bagaimana, aku...","[apk, jujur, bagus, sih, cuman, bagaimana, aku..."
2,2025-06-30 08:16:34,5b1112d4-1947-4005-9cec-6ca3becf1e01,Pengguna Google,1,"tolong dong d perbaiki,setiap Saya buka tiktok...",tolong dong d perbaikisetiap Saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...,tolong dong d perbaikisetiap saya buka tiktok ...,tolong dong di perbaikisetiap saya buka tiktok...,"[tolong, dong, di, perbaikisetiap, saya, buka,...","[dong, perbaikisetiap, buka, tiktok, setuck, l...","[dong, perbaikisetiap, buka, tiktok, setuck, l..."
3,2025-07-01 07:21:18,10b4e614-70ba-4d26-af54-391beb7754ce,Pengguna Google,4,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bgus cuma benerin dong sedikit ...,apk ini memang bagus cuma benerin dong sedikit...,"[apk, ini, memang, bagus, cuma, benerin, dong,...","[apk, memang, bagus, cuma, benerin, dong, sedi...","[apk, memang, bagus, cuma, benerin, dong, sedi..."
4,2025-07-01 20:12:54,384feee2-91b6-4a7d-bba1-d967f8d2ca1e,Pengguna Google,1,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,kalau aku ngeser ke atas pasti itu lagu jadi l...,"[kalau, aku, ngeser, ke, atas, pasti, itu, lag...","[kalau, aku, ngeser, atas, lagu, jadi, lagu, d...","[kalau, aku, ngeser, atas, lagu, jadi, lagu, d..."


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 12 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   at                100000 non-null  object
 1   reviewId          100000 non-null  object
 2   userName          100000 non-null  object
 3   score             100000 non-null  int64 
 4   content           100000 non-null  object
 5   cleaning          100000 non-null  object
 6   case_folding      100000 non-null  object
 7   no_elongation     100000 non-null  object
 8   formalization     100000 non-null  object
 9   tokenized         100000 non-null  object
 10  stopword_removal  100000 non-null  object
 11  stemming          100000 non-null  object
dtypes: int64(1), object(11)
memory usage: 9.2+ MB


In [24]:
df.isna().sum()

at                  0
reviewId            0
userName            0
score               0
content             0
cleaning            0
case_folding        0
no_elongation       0
formalization       0
tokenized           0
stopword_removal    0
stemming            0
dtype: int64

## Save Preprocessed Data

In [25]:
df.to_csv('../data/preprocessed/review_tiktok_dataset_preprocessed.csv', index=False)