# 🚀 **Preprocessing Komentar TikTok untuk Analisis Sentimen #kaburajadulu**

Notebook ini melakukan preprocessing komprehensif pada komentar TikTok terkait hashtag viral #kaburajadulu yang mengekspresikan keinginan orang Indonesia untuk pindah ke luar negeri.

## 📋 Tujuan Proyek
- Mengolah data mentah hasil crawling komentar TikTok
- Membersihkan dan menormalisasi teks bahasa Indonesia
- Menerapkan stemming dan penghapusan stopword khusus
- Menyiapkan struktur data untuk analisis sentimen

Mari mulai perjalanan data preprocessing kita! 🧠✨

## **📚 Import Library yang Dibutuhkan**

Mengimpor library-library penting yang akan menjadi senjata kita dalam membersihkan dan mengolah data teks.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import emoji
import nltk
from nltk.tokenize import word_tokenize
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from nltk.corpus import stopwords

## **🔄 Download Paket NLTK untuk Tokenisasi**

NLTK (Natural Language Toolkit) akan membantu kita memecah teks menjadi token-token yang lebih mudah dianalisis.

In [3]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /home/notsuperganang/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## **📥 Membaca Data Mentah**

Membaca file CSV hasil crawling komentar TikTok yang akan kita olah.

In [4]:
df_full = pd.read_csv('full-data/Full-Scrape-TikTok-Comments/tiktok_comments_full.csv')

## **👀 Eksplorasi Data Awal**

Melihat bentuk data mentah untuk memahami struktur dan kontennya.

In [5]:
df_full

Unnamed: 0,post_url,comment_id,text,likes,reply_count,created_time,created_time_formatted,is_pinned,is_reply,username,...,is_filtered,parent_comment_id,reply_to_username,status,sticker_displayed_text,sticker_id,text_extra,user_avatar_url,user_bio,user_sec_uid
0,https://www.tiktok.com/@geraldvincentt/video/7...,7472322806736372488,Vaniati’s comment: @Supercuan88#🧡💛 Fun Game💙💚,95,14,1739785745,2025-02-17 09:49:05,False,True,vaniati3,...,False,0,,1,,,[],,,MS4wLjABAAAASNjC-x3ty7lcmMj-O58Jv8TVI7ybo3BgPM...
1,https://www.tiktok.com/@geraldvincentt/video/7...,7472334480913744647,StKintania’s comment: @Supercuan88#🧡💛 Perfect ...,100,3,1739788461,2025-02-17 10:34:21,False,True,stkintania,...,False,0,,1,,,[],,,MS4wLjABAAAA7LhiSx4_z-pTOMLyFyqXtq-6crilDg4-2O...
2,https://www.tiktok.com/@geraldvincentt/video/7...,7472337023366562567,Intaniatakbjr’s comment: @Supercuan88#🧡💛Game f...,101,3,1739789052,2025-02-17 10:44:12,False,True,intaniatakbjr,...,False,0,,1,,,[],,,MS4wLjABAAAAKBAr9lvFWDv8CXcoO3WKNY3iOEgY7_1LmL...
3,https://www.tiktok.com/@geraldvincentt/video/7...,7472329159885226760,Berlinyuki’s comment: @Supercuan88#🧡💛 Happy Fu...,104,8,1739787217,2025-02-17 10:13:37,False,True,berlinyuki,...,False,0,,1,,,[],,,MS4wLjABAAAAxOIyMjTkAZoexDzaO_QlcpvlEx83kbrwAi...
4,https://www.tiktok.com/@geraldvincentt/video/7...,7472331918579893000,SalsabilaRngkty’s comment: @Supercuan88#🧡💛 End...,103,6,1739787862,2025-02-17 10:24:22,False,True,salsabilarngkty,...,False,0,,1,,,[],,,MS4wLjABAAAAmU3hZOhr-6zNBF_8Cr6uN9cjA4fRJux2v0...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16056,https://www.tiktok.com/@vmuliana/video/7471227...,7471228930545451794,18Maret🥳’s comment: ok,0,0,1739531056,2025-02-14 11:04:16,False,True,manarisip0018,...,False,0,,1,,,[],,,MS4wLjABAAAA6GjTGApCu8IEXX3qSQqURNSaYjhh0EOuTQ...
16057,https://www.tiktok.com/@vmuliana/video/7471227...,7471228912581673746,yanfar2411’s comment: Assalamu'alaikum kak,0,0,1739531055,2025-02-14 11:04:15,False,True,yanfa9204,...,False,0,,1,,,[],,,MS4wLjABAAAA1HEY3oakd2fucNf17Pgcg542MsexTHE3Mz...
16058,https://www.tiktok.com/@vmuliana/video/7471227...,7471228059636843269,Rudi Saputra’s comment: ikutt🔥🔥🔥,0,0,1739530888,2025-02-14 11:01:28,False,True,rudisaputraa_,...,False,0,,1,,,[],,,MS4wLjABAAAAA7LRe8SLcixaB2ivIMfkQVuxyxsycYVYR5...
16059,https://www.tiktok.com/@vmuliana/video/7471227...,7471228215949378311,26158’s comment: gasss,0,0,1739530887,2025-02-14 11:01:27,False,True,nyc_lover26,...,False,0,,1,,,[],,,MS4wLjABAAAAyCnE45aTPWDgOpkmx-FKdx3WkLLgvHZKRQ...


## **🕵️ Memeriksa Missing Values**

Pastikan tidak ada nilai yang hilang yang dapat mengganggu proses analisis.

In [6]:
df_full.isnull().sum()

post_url                      0
comment_id                    0
text                          0
likes                         0
reply_count                   0
created_time                  0
created_time_formatted        0
is_pinned                     0
is_reply                      0
username                     60
display_name                 65
user_id                   16061
user_verified                 0
user_follower_count           0
user_following_count          0
comment_language              0
creator_digged                0
creator_pinned                0
image_list                16061
is_filtered                   0
parent_comment_id             0
reply_to_username         16061
status                        0
sticker_displayed_text    16061
sticker_id                16061
text_extra                    0
user_avatar_url           16061
user_bio                  16061
user_sec_uid                 60
dtype: int64

## **✂️ Seleksi Kolom yang Relevan**

Fokus hanya pada kolom yang penting untuk memudahkan analisis.

In [7]:
df_useful = df_full[['text', 'likes', 'reply_count', 'created_time_formatted', 'is_pinned', 'is_reply', 'user_verified', 'comment_language']].copy()

## **🔍 Cek Duplikasi Data**

Menghitung jumlah data duplikat dalam dataset.

In [8]:
df_useful.duplicated().sum()

662

## **🧹 Menghapus Data Duplikat**

Membersihkan dataset dari data duplikat untuk menghindari bias dalam analisis.

In [9]:
print(f"Before: {df_useful.shape}")

df_useful.drop_duplicates(inplace=True)

print(f"After: {df_useful.shape}")

Before: (16061, 8)
After: (15399, 8)


## **📊 Tampilkan Hasil Deduplikasi**

Melihat dataset setelah proses penghapusan duplikat.

In [10]:
df_useful

Unnamed: 0,text,likes,reply_count,created_time_formatted,is_pinned,is_reply,user_verified,comment_language
0,Vaniati’s comment: @Supercuan88#🧡💛 Fun Game💙💚,95,14,2025-02-17 09:49:05,False,True,False,en
1,StKintania’s comment: @Supercuan88#🧡💛 Perfect ...,100,3,2025-02-17 10:34:21,False,True,False,en
2,Intaniatakbjr’s comment: @Supercuan88#🧡💛Game f...,101,3,2025-02-17 10:44:12,False,True,False,en
3,Berlinyuki’s comment: @Supercuan88#🧡💛 Happy Fu...,104,8,2025-02-17 10:13:37,False,True,False,en
4,SalsabilaRngkty’s comment: @Supercuan88#🧡💛 End...,103,6,2025-02-17 10:24:22,False,True,False,en
...,...,...,...,...,...,...,...,...
16056,18Maret🥳’s comment: ok,0,0,2025-02-14 11:04:16,False,True,False,en
16057,yanfar2411’s comment: Assalamu'alaikum kak,0,0,2025-02-14 11:04:15,False,True,False,ms
16058,Rudi Saputra’s comment: ikutt🔥🔥🔥,0,0,2025-02-14 11:01:28,False,True,False,id
16059,26158’s comment: gasss,0,0,2025-02-14 11:01:27,False,True,False,id


## **📝 Melihat Contoh Format Komentar**

Mengamati beberapa contoh format teks komentar untuk memahami pola yang perlu dibersihkan.

In [11]:
# Lihat beberapa contoh teks komentar
print("Contoh format teks komentar:")
for i, text in enumerate(df_useful['text'].head(10)):
    print(f"{i+1}. {text}")

Contoh format teks komentar:
1. Vaniati’s comment: @Supercuan88#🧡💛 Fun Game💙💚
2. StKintania’s comment: @Supercuan88#🧡💛 Perfect Game💙💚
3. Intaniatakbjr’s comment: @Supercuan88#🧡💛Game favorite💙💚
4. Berlinyuki’s comment: @Supercuan88#🧡💛 Happy Fun Game💙💚
5. SalsabilaRngkty’s comment: @Supercuan88#🧡💛 Ending Game💙💚
6. Kristy’s comment: @Supercuan88#🧡💛 Happy Gamers💙💚
7. R a d i t’s comment: pasti pada muak bngt tinggal di Indonesian 😭😭
8. zulfa suci lestari’s comment: syarat di indo : harus berpenampilan menarik.
dari situ aja aku udah kalah 😔😔😔
9. matayu’s comment: bukan ga nasionalis tapi realistis
10. TongTong SONG’s comment: di jepang mudah cari kerja di indonesia harus bisa jdi avatar dulu baru kerja
#kaburajadulu


## **🔮 Ekstraksi Teks Komentar dari Format yang Bervariasi**

Membuat fungsi cerdas untuk mengekstrak teks komentar dari berbagai format yang mungkin ada.

In [12]:
# Fungsi untuk ekstrak teks komentar dari format yang berbeda
def extract_comment_text_improved(text):
    # Pattern 1: Format umum "[display_name]'s comment: [teks komentar]"
    pattern1 = r"^(.*?)'s comment:\s*(.*)$"
    
    # Pattern 2: Format alternatif tanpa "'s" - "[display_name] comment: [teks komentar]"
    pattern2 = r"^(.*?)\s+comment:\s*(.*)$"
    
    # Coba pattern 1 dulu
    match = re.search(pattern1, text, re.DOTALL)
    if match:
        return match.group(2).strip()
    
    # Jika pattern 1 tidak cocok, coba pattern 2
    match = re.search(pattern2, text, re.DOTALL)
    if match:
        return match.group(2).strip()
    
    # Jika masih belum cocok, cek apakah ada substring "comment:" di mana saja
    if "comment:" in text:
        # Ambil semua teks setelah "comment:"
        return text.split("comment:", 1)[1].strip()
    
    # Jika tidak ada pattern yang cocok, ini mungkin komentar langsung
    return text.strip()

# Terapkan fungsi ke kolom text
df_useful['extracted_text'] = df_useful['text'].apply(extract_comment_text_improved)

df_useful = df_useful.reindex(columns=['text', 'extracted_text'] + [col for col in df_useful.columns if col not in ['text', 'extracted_text']])     

# Contoh hasil ekstraksi
print("\nContoh hasil ekstraksi teks komentar:")
for i, (original, extracted) in enumerate(zip(df_useful['text'].head(10), df_useful['extracted_text'].head(10))):
    print(f"{i+1}. Original: {original}")
    print(f"   Cleaned: {extracted}")
    print()


Contoh hasil ekstraksi teks komentar:
1. Original: Vaniati’s comment: @Supercuan88#🧡💛 Fun Game💙💚
   Cleaned: @Supercuan88#🧡💛 Fun Game💙💚

2. Original: StKintania’s comment: @Supercuan88#🧡💛 Perfect Game💙💚
   Cleaned: @Supercuan88#🧡💛 Perfect Game💙💚

3. Original: Intaniatakbjr’s comment: @Supercuan88#🧡💛Game favorite💙💚
   Cleaned: @Supercuan88#🧡💛Game favorite💙💚

4. Original: Berlinyuki’s comment: @Supercuan88#🧡💛 Happy Fun Game💙💚
   Cleaned: @Supercuan88#🧡💛 Happy Fun Game💙💚

5. Original: SalsabilaRngkty’s comment: @Supercuan88#🧡💛 Ending Game💙💚
   Cleaned: @Supercuan88#🧡💛 Ending Game💙💚

6. Original: Kristy’s comment: @Supercuan88#🧡💛 Happy Gamers💙💚
   Cleaned: @Supercuan88#🧡💛 Happy Gamers💙💚

7. Original: R a d i t’s comment: pasti pada muak bngt tinggal di Indonesian 😭😭
   Cleaned: pasti pada muak bngt tinggal di Indonesian 😭😭

8. Original: zulfa suci lestari’s comment: syarat di indo : harus berpenampilan menarik.
dari situ aja aku udah kalah 😔😔😔
   Cleaned: syarat di indo : harus berpenampi

## **👁️ Pengecekan Dataset Setelah Ekstraksi**

Melihat hasil ekstraksi teks komentar dari format mentahnya.

In [13]:
df_useful

Unnamed: 0,text,extracted_text,likes,reply_count,created_time_formatted,is_pinned,is_reply,user_verified,comment_language
0,Vaniati’s comment: @Supercuan88#🧡💛 Fun Game💙💚,@Supercuan88#🧡💛 Fun Game💙💚,95,14,2025-02-17 09:49:05,False,True,False,en
1,StKintania’s comment: @Supercuan88#🧡💛 Perfect ...,@Supercuan88#🧡💛 Perfect Game💙💚,100,3,2025-02-17 10:34:21,False,True,False,en
2,Intaniatakbjr’s comment: @Supercuan88#🧡💛Game f...,@Supercuan88#🧡💛Game favorite💙💚,101,3,2025-02-17 10:44:12,False,True,False,en
3,Berlinyuki’s comment: @Supercuan88#🧡💛 Happy Fu...,@Supercuan88#🧡💛 Happy Fun Game💙💚,104,8,2025-02-17 10:13:37,False,True,False,en
4,SalsabilaRngkty’s comment: @Supercuan88#🧡💛 End...,@Supercuan88#🧡💛 Ending Game💙💚,103,6,2025-02-17 10:24:22,False,True,False,en
...,...,...,...,...,...,...,...,...,...
16056,18Maret🥳’s comment: ok,ok,0,0,2025-02-14 11:04:16,False,True,False,en
16057,yanfar2411’s comment: Assalamu'alaikum kak,Assalamu'alaikum kak,0,0,2025-02-14 11:04:15,False,True,False,ms
16058,Rudi Saputra’s comment: ikutt🔥🔥🔥,ikutt🔥🔥🔥,0,0,2025-02-14 11:01:28,False,True,False,id
16059,26158’s comment: gasss,gasss,0,0,2025-02-14 11:01:27,False,True,False,id


## **✄ Membuang Beberapa Baris Awal yang Tidak Relevan**

Menghapus beberapa baris pertama yang mungkin berisi header atau informasi yang tidak diperlukan.

In [14]:
df_useful = df_useful.drop(index=range(0, 6))

df_useful = df_useful.reset_index(drop=True)

In [15]:
df_useful

Unnamed: 0,text,extracted_text,likes,reply_count,created_time_formatted,is_pinned,is_reply,user_verified,comment_language
0,R a d i t’s comment: pasti pada muak bngt ting...,pasti pada muak bngt tinggal di Indonesian 😭😭,5290,50,2025-02-17 05:41:38,False,True,False,id
1,zulfa suci lestari’s comment: syarat di indo :...,syarat di indo : harus berpenampilan menarik.\...,1711,14,2025-02-17 05:26:15,False,True,False,id
2,matayu’s comment: bukan ga nasionalis tapi rea...,bukan ga nasionalis tapi realistis,1698,3,2025-02-17 05:54:08,False,True,False,id
3,TongTong SONG’s comment: di jepang mudah cari ...,di jepang mudah cari kerja di indonesia harus ...,1256,13,2025-02-17 05:16:01,False,True,False,id
4,shella.’s comment: ingat GUYS. belum terlambat...,ingat GUYS. belum terlambat kalo mau mulai dar...,613,2,2025-02-17 05:11:20,False,True,False,id
...,...,...,...,...,...,...,...,...,...
15388,18Maret🥳’s comment: ok,ok,0,0,2025-02-14 11:04:16,False,True,False,en
15389,yanfar2411’s comment: Assalamu'alaikum kak,Assalamu'alaikum kak,0,0,2025-02-14 11:04:15,False,True,False,ms
15390,Rudi Saputra’s comment: ikutt🔥🔥🔥,ikutt🔥🔥🔥,0,0,2025-02-14 11:01:28,False,True,False,id
15391,26158’s comment: gasss,gasss,0,0,2025-02-14 11:01:27,False,True,False,id


## **😀 Identifikasi Komentar yang Hanya Berisi Emoji**

Mendeteksi komentar yang hanya terdiri dari emoji tanpa teks bermakna.

In [16]:
# Pola regex untuk hanya emoji
emoji_pattern = re.compile(r'^[\W_]+$', re.UNICODE)

# Filter baris yang hanya mengandung emoji
emoji_rows = df_useful[df_useful['extracted_text'].apply(lambda x: bool(emoji_pattern.match(str(x))))]

# Cek jumlahnya
len(emoji_rows)

970

## **🚫 Menghapus Komentar yang Hanya Berisi Emoji**

Menyaring komentar yang hanya berisi emoji karena kurang informatif untuk analisis sentimen teks.

In [17]:
df_useful = df_useful[~df_useful['extracted_text'].apply(lambda x: bool(emoji_pattern.match(str(x))))]

## **🧼 Fungsi Pembersihan Teks Dasar**

Membuat fungsi untuk membersihkan teks dari emoji, URL, mention, hashtag, dan karakter tidak penting.

In [18]:
def clean_text(text):
    """
    Basic text cleaning: remove emojis, convert to lowercase
    """
    if not isinstance(text, str):
        return ""
    
    # Remove emojis
    text = emoji.replace_emoji(text, replace='')
    
    # Convert to lowercase
    text = text.lower()
    
    # Remove URLs
    text = re.sub(r'https?://\S+|www\.\S+', '', text)
    
    # Remove mentions and hashtags
    text = re.sub(r'@\w+', '', text)
    text = re.sub(r'#\w+', '', text)
    
    # Remove punctuation
    text = re.sub(r'[^\w\s]', '', text)
    
    # Remove extra whitespace
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

## **✨ Menerapkan Pembersihan Teks**

Mengaplikasikan fungsi pembersihan ke seluruh dataset dan melihat perbandingan sebelum-sesudah.

In [19]:
df_cleaned = df_useful.copy()

df_cleaned['cleaned_text'] = df_useful['extracted_text'].apply(clean_text)

print("Original vs Cleaned Text Examples:")
for i in range(min(5, len(df_cleaned))):
    print(f"Original: {df_cleaned['extracted_text'].iloc[i]}")
    print(f"Cleaned: {df_cleaned['cleaned_text'].iloc[i]}")
    print("-" * 50)

Original vs Cleaned Text Examples:
Original: pasti pada muak bngt tinggal di Indonesian 😭😭
Cleaned: pasti pada muak bngt tinggal di indonesian
--------------------------------------------------
Original: syarat di indo : harus berpenampilan menarik.
dari situ aja aku udah kalah 😔😔😔
Cleaned: syarat di indo harus berpenampilan menarik dari situ aja aku udah kalah
--------------------------------------------------
Original: bukan ga nasionalis tapi realistis
Cleaned: bukan ga nasionalis tapi realistis
--------------------------------------------------
Original: di jepang mudah cari kerja di indonesia harus bisa jdi avatar dulu baru kerja
#kaburajadulu
Cleaned: di jepang mudah cari kerja di indonesia harus bisa jdi avatar dulu baru kerja
--------------------------------------------------
Original: ingat GUYS. belum terlambat kalo mau mulai dari sekarang 🙏
Cleaned: ingat guys belum terlambat kalo mau mulai dari sekarang
--------------------------------------------------


## **📋 Dataset dengan Teks yang Sudah Dibersihkan**

Melihat dataset setelah proses pembersihan teks dasar.

In [20]:
df_cleaned_text = df_cleaned[['text', 'extracted_text', 'cleaned_text']]

df_cleaned_text

Unnamed: 0,text,extracted_text,cleaned_text
0,R a d i t’s comment: pasti pada muak bngt ting...,pasti pada muak bngt tinggal di Indonesian 😭😭,pasti pada muak bngt tinggal di indonesian
1,zulfa suci lestari’s comment: syarat di indo :...,syarat di indo : harus berpenampilan menarik.\...,syarat di indo harus berpenampilan menarik dar...
2,matayu’s comment: bukan ga nasionalis tapi rea...,bukan ga nasionalis tapi realistis,bukan ga nasionalis tapi realistis
3,TongTong SONG’s comment: di jepang mudah cari ...,di jepang mudah cari kerja di indonesia harus ...,di jepang mudah cari kerja di indonesia harus ...
4,shella.’s comment: ingat GUYS. belum terlambat...,ingat GUYS. belum terlambat kalo mau mulai dar...,ingat guys belum terlambat kalo mau mulai dari...
...,...,...,...
15388,18Maret🥳’s comment: ok,ok,ok
15389,yanfar2411’s comment: Assalamu'alaikum kak,Assalamu'alaikum kak,assalamualaikum kak
15390,Rudi Saputra’s comment: ikutt🔥🔥🔥,ikutt🔥🔥🔥,ikutt
15391,26158’s comment: gasss,gasss,gasss


## **📕 Membuat Kamus Normalisasi Bahasa Indonesia**

Menyusun kamus untuk mengubah kata-kata tidak baku, singkatan, dan bahasa gaul menjadi bahasa Indonesia yang standar.

In [21]:
def create_normalization_dict():
    """
    Membuat kamus untuk normalisasi kata bahasa Indonesia
    """
    word_normalization = {
        # Kata informal umum ke bahasa Indonesia baku
        'pengen': 'ingin',
        'pingin': 'ingin',
        'pengin': 'ingin',
        'pgn': 'ingin',
        'kepingin': 'ingin',
        'pengennya': 'inginnya',
        'maunya': 'inginnya',
        'pulkam': 'pulang kampung',
        'nyari': 'mencari',
        'kira2': 'kira-kira',
        
        # Kata ganti dan singkatan umum
        'gw': 'saya',
        'gwe': 'saya',
        'gua': 'saya',
        'aku': 'saya',
        'sy': 'saya',
        'ane': 'saya',
        'w': 'saya',
        'q': 'saya',
        'ku': 'saya',
        'kau': 'kamu',
        'lo': 'kamu',
        'lu': 'kamu',
        'loe': 'kamu',
        'u': 'kamu',
        
        # Singkatan umum
        'yg': 'yang',
        'dgn': 'dengan',
        'dr': 'dari',
        'utk': 'untuk',
        'bwt': 'buat',
        'spt': 'seperti',
        'sptnya': 'sepertinya',
        'sm': 'sama',
        'tdk': 'tidak',
        'gak': 'tidak',
        'ga': 'tidak',
        'ngga': 'tidak',
        'nggak': 'tidak',
        'g': 'tidak',
        'gk': 'tidak',
        'ndk': 'tidak',
        'enggak': 'tidak',
        'engga': 'tidak',
        'klo': 'kalau',
        'kl': 'kalau',
        'klw': 'kalau',
        'kalo': 'kalau',
        'klu': 'kalau',
        'kyk': 'kayak',
        'ky': 'kayak',
        'sprti': 'seperti',
        'spt': 'seperti',
        'sprt': 'seperti',
        'kyak': 'seperti',
        'kek': 'seperti',
        'krn': 'karena',
        'karna': 'karena',
        'kren': 'keren',
        'km': 'kamu',
        'k': 'ke',
        'ni': 'ini',
        'tu': 'itu',
        'ny': 'nya',
        'bs': 'bisa',
        'gt': 'begitu',
        'gtu': 'begitu',
        'gitu': 'begitu',
        'gmn': 'bagaimana',
        'gmna': 'bagaimana',
        'gimana': 'bagaimana',
        'bgt': 'banget',
        'bngt': 'banget',
        'bngat': 'banget',
        'bener': 'benar',
        'bnr': 'benar',
        'emg': 'memang',
        'emang': 'memang',
        'jd': 'jadi',
        'jdi': 'jadi',
        'udh': 'sudah',
        'udah': 'sudah',
        'sdh': 'sudah',
        'dh': 'sudah',
        'yaudah': 'ya sudah',
        'yauda': 'ya sudah',
        'blm': 'belum',
        'blom': 'belum',
        'blum': 'belum',
        'mlm': 'malam',
        'malem': 'malam',
        'hr': 'hari',
        'bln': 'bulan',
        'thn': 'tahun',
        'taun': 'tahun',
        'th': 'tahun',
        'tgl': 'tanggal',
        'mgg': 'minggu',
        'dtg': 'datang',
        'skrg': 'sekarang',
        'skg': 'sekarang',
        'skrang': 'sekarang',
        'skarang': 'sekarang',
        'skr': 'sekarang',
        'bngt': 'banget',
        
        # Angka dan satuan
        'rb': 'ribu',
        'rbu': 'ribu',
        'jt': 'juta',
        'jta': 'juta',
        'jtan': 'jutaan',
        'm': 'meter',
        'gr': 'gram',
        'kg': 'kilogram',
        
        # Istilah media sosial/internet
        'asap': 'segera',
        'btw': 'ngomong-ngomong',
        'pc': 'komputer',
        'hp': 'ponsel',
        'hape': 'ponsel',
        'wa': 'whatsapp',
        'ig': 'instagram',
        'fb': 'facebook',
        'netijen': 'warganet',
        'nettizen': 'warganet',
        'netizen': 'warganet',
        
        # Istilah khusus Indonesia
        'indo': 'indonesia',
        'indon': 'indonesia',
        'jogja': 'yogyakarta',
        'jkt': 'jakarta',
        'bdg': 'bandung',
        'sby': 'surabaya',
        'mks': 'makassar',
        
        # Kata khusus yang ditemukan di dataset
        'muak': 'muak',
        'bngt': 'banget',
        'nyaa': 'nya',
        'nyaaa': 'nya',
        'guyss': 'guys',
        'guysss': 'guys',
        'guys': 'guys',
        'gaysss': 'guys',
        'doain': 'doakan',
        'bismilah': 'bismillah',
        'bismillah': 'bismillah',
        'orng': 'orang',
        'org': 'orang',
        'denmark': 'denmark',
        'denmarkk': 'denmark',
        'ampel': 'sampai',
        'kbur' : 'kabur',
        'indonesian' : 'indonesia',
        'buruburu' : 'buru-buru',
        'bgtu' : 'begitu',
    }
    
    return word_normalization

## **🔄 Fungsi Normalisasi Karakter Berulang**

Membuat fungsi untuk memperbaiki kata dengan karakter berulang (misalnya 'kereeeeeen' → 'keren').

In [22]:
def normalize_repeated_chars(text):
    """
    Menormalkan karakter berulang dalam teks
    Contoh: 'gasssss' -> 'gas', 'bentarrrr' -> 'bentar'
    
    Mempertahankan maksimal 2 karakter berurutan yang sama
    (untuk mengakomodasi huruf ganda yang legitimate seperti 'maaf')
    """
    if not isinstance(text, str) or not text:
        return text
    
    # Gunakan regex untuk mengganti 3 atau lebih karakter berulang menjadi 1
    return re.sub(r'(.)\1{2,}', r'\1', text)

## **🌟 Fungsi Utama Normalisasi Teks**

Menggabungkan fungsi-fungsi sebelumnya untuk membuat pipeline normalisasi teks yang komprehensif.

In [23]:
def normalize_words(text, word_dict):
    """
    Memisahkan teks menjadi kata-kata dan menormalisasikan kata-kata menggunakan kamus
    """
    if not isinstance(text, str) or not text:
        return text
    
    # Pisahkan teks menjadi kata-kata
    words = text.split()
    
    # Normalisasi setiap kata
    normalized_words = []
    for word in words:
        # Cek apakah kata ada di kamus
        if word.lower() in word_dict:
            normalized_words.append(word_dict[word.lower()])
        else:
            normalized_words.append(word)
    
    # Gabungkan kembali menjadi teks
    return ' '.join(normalized_words)

In [24]:
def normalize_text(text):
    """
    Fungsi utama untuk menormalisasi teks:
    1. Menghilangkan karakter berulang
    2. Menormalisasi kata-kata menggunakan kamus
    """
    if not isinstance(text, str):
        return ""
    
    # Dapatkan kamus normalisasi
    word_dict = create_normalization_dict()
    
    # Normalisasi karakter berulang
    text = normalize_repeated_chars(text)
    
    # Normalisasi kata-kata
    text = normalize_words(text, word_dict)
    
    return text

## **⚙️ Menerapkan Normalisasi Teks**

Mengaplikasikan normalisasi teks ke seluruh dataset untuk mendapatkan teks yang lebih konsisten.

In [25]:
df_cleaned_text['normalized_text'] = df_cleaned_text['cleaned_text'].apply(normalize_text)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned_text['normalized_text'] = df_cleaned_text['cleaned_text'].apply(normalize_text)


## **📊 Perbandingan Teks Sebelum dan Sesudah Normalisasi**

Menganalisis hasil normalisasi dengan melihat perbandingan teks original, dibersihkan, dan dinormalisasi.

In [26]:
print("Perbandingan teks sebelum dan sesudah normalisasi:")
for i in range(min(10, len(df_cleaned_text))):
    print(f"\n{i+1}. Original: {df_cleaned_text['extracted_text'].iloc[i]}")
    print(f"   Cleaned: {df_cleaned_text['cleaned_text'].iloc[i]}")
    print(f"   Normalized: {df_cleaned_text['normalized_text'].iloc[i]}")
    print("-" * 50)

Perbandingan teks sebelum dan sesudah normalisasi:

1. Original: pasti pada muak bngt tinggal di Indonesian 😭😭
   Cleaned: pasti pada muak bngt tinggal di indonesian
   Normalized: pasti pada muak banget tinggal di indonesia
--------------------------------------------------

2. Original: syarat di indo : harus berpenampilan menarik.
dari situ aja aku udah kalah 😔😔😔
   Cleaned: syarat di indo harus berpenampilan menarik dari situ aja aku udah kalah
   Normalized: syarat di indonesia harus berpenampilan menarik dari situ aja saya sudah kalah
--------------------------------------------------

3. Original: bukan ga nasionalis tapi realistis
   Cleaned: bukan ga nasionalis tapi realistis
   Normalized: bukan tidak nasionalis tapi realistis
--------------------------------------------------

4. Original: di jepang mudah cari kerja di indonesia harus bisa jdi avatar dulu baru kerja
#kaburajadulu
   Cleaned: di jepang mudah cari kerja di indonesia harus bisa jdi avatar dulu baru kerja
   Nor

## **🔄 Download Resource NLTK Tambahan**

Mengunduh resource tambahan dari NLTK untuk tokenisasi dan stopwords bahasa Indonesia.

In [27]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     /home/notsuperganang/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/notsuperganang/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## **📋 Membuat Daftar Stopwords Khusus Bahasa Indonesia**

Menyusun daftar lengkap stopwords bahasa Indonesia yang disesuaikan dengan konteks media sosial.

In [28]:
def create_stopwords_list():
    """
    Membuat daftar stopwords khusus bahasa Indonesia yang diperluas
    """
    # Dapatkan stopwords bahasa Indonesia dari NLTK (jika tersedia)
    try:
        indo_stopwords = set(stopwords.words('indonesian'))
    except:
        indo_stopwords = set()
    
    # Tambahkan stopwords khusus bahasa Indonesia
    additional_stopwords = {
        'yang', 'dengan', 'pada', 'dan', 'di', 'dari', 'ke', 'untuk', 'dalam',
        'ada', 'adalah', 'sebagai', 'jika', 'juga', 'oleh', 'atau', 'ini', 'itu',
        'tersebut', 'saat', 'seperti', 'agar', 'supaya', 'tetapi', 'namun', 'akan',
        'telah', 'sudah', 'sedang', 'belum', 'dapat', 'bisa', 'harus', 'karena', 'antara',
        'ia', 'dia', 'mereka', 'kita', 'kami', 'kalian', 'kamu', 'anda', 'saya',
        'nya', 'ku', 'mu', 'masing', 'masing-masing', 'yaitu', 'yakni',
        'dll', 'dst', 'dsb', 'dll', 'dkk', 'cuma', 'hanya', 'lagi', 'pun', 'ya', 'tapi',
        'lain', 'lainnya', 'selain', 'para', 'sang', 'si', 'tak', 'tidak', 'tiap',
        'setiap', 'semua', 'tanpa', 'ayo', 'mari', 'yuk', 'ketika',
        # Tambahkan stopword khusus konteks media sosial
        'guys', 'btw', 'gais', 'guys', 'say', 'sih', 'nih', 'deh', 'lho', 'lah', 'dong', 'kok',
        'mah', 'tuh', 'ih', 'eh', 'yah', 'ya', 'sih', 'hm', 'hmm', 'oh', 'uh', 'ah',
        # Kata-kata waktu
        'hari', 'bulan', 'tahun', 'minggu', 'detik', 'menit', 'jam', 'kemarin', 'besok',
        'lusa', 'sekarang', 'dulu', 'nanti', 'lagi',
        # Kata-kata angka
        'satu', 'dua', 'tiga', 'empat', 'lima', 'enam', 'tujuh', 'delapan', 'sembilan', 'sepuluh',
        # Kata-kata tempat
        'di', 'ke', 'dari', 'dalam', 'luar', 'atas', 'bawah', 'samping', 'sekitar',
        # Kata-kata spesifik konteks tiktok
        'komen', 'comment', 'video', 'like', 'share', 'subscribe', 'follow', 'viral', 'trending', 'fyp'
    }

    all_stopwords = indo_stopwords.union(additional_stopwords)
    
    return all_stopwords

## **✂️ Fungsi Tokenisasi Teks**

Membuat fungsi untuk memecah teks menjadi token-token individual yang lebih mudah diproses.

In [29]:
def tokenize_text(text):
    """
    Melakukan tokenisasi pada teks bahasa Indonesia
    """
    if not isinstance(text, str) or not text:
        return []
    
    # Tokenisasi menggunakan NLTK
    tokens = word_tokenize(text)
    
    # Filter token yang hanya terdiri dari karakter alfabet dan lebih dari 1 karakter
    tokens = [token.lower() for token in tokens if token.isalpha() and len(token) > 1]
    
    return tokens

## **🚫 Fungsi Penghapusan Stopwords**

Membuat fungsi untuk menyaring stopwords dari daftar token.

In [30]:
def remove_stopwords(tokens, stopwords_list):
    """
    Menghapus stopwords dari daftar token
    """
    if not isinstance(tokens, list):
        return []
    
    # Hilangkan stopwords
    tokens_without_stopwords = [token for token in tokens if token not in stopwords_list]
    
    return tokens_without_stopwords

## **🔡 Fungsi Format Daftar Token**

Membuat fungsi untuk memformat daftar token menjadi string yang lebih mudah dibaca.

In [31]:
def format_tokens_list(tokens):
    """
    Membuat format token seperti yang diinginkan: [token1, token2, ...]
    """
    if not isinstance(tokens, list):
        return "[]"
    
    if not tokens:
        return "[]"
    
    # Format token menjadi string yang diinginkan
    return str(tokens).replace("'", "")

## **📝 Membuat Daftar Stopwords**

Menginisialisasi daftar stopwords yang akan digunakan dalam proses filtering.

In [32]:
stopwords_list = create_stopwords_list()

## **🎯 Menerapkan Tokenisasi dan Penghapusan Stopwords**

Melakukan tokenisasi teks dan menghapus stopwords dari dataset.

In [33]:
# Lakukan tokenisasi dan penghapusan stopwords
df_cleaned_text['tokens'] = df_cleaned_text['normalized_text'].apply(tokenize_text)
df_cleaned_text['tokens_no_stopwords'] = df_cleaned_text['tokens'].apply(lambda x: remove_stopwords(x, stopwords_list))

# Format token untuk kolom token dan no_stopwords
df_cleaned_text['token_formatted'] = df_cleaned_text['tokens'].apply(format_tokens_list)
df_cleaned_text['no_stopwords_formatted'] = df_cleaned_text['tokens_no_stopwords'].apply(format_tokens_list)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned_text['tokens'] = df_cleaned_text['normalized_text'].apply(tokenize_text)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned_text['tokens_no_stopwords'] = df_cleaned_text['tokens'].apply(lambda x: remove_stopwords(x, stopwords_list))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  d

## **🔄 Fungsi Penggabungan Token Menjadi Teks**

Membuat fungsi untuk menggabungkan kembali token-token menjadi teks utuh setelah diproses.

In [34]:
def join_tokens(tokens):
    """
    Menggabungkan token menjadi teks
    """
    if not isinstance(tokens, list):
        return ""
    
    return " ".join(tokens)

df_cleaned_text['processed'] = df_cleaned_text['tokens_no_stopwords'].apply(join_tokens)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned_text['processed'] = df_cleaned_text['tokens_no_stopwords'].apply(join_tokens)


## **📊 Melihat Hasil Tokenisasi dan Filtering**

Mengecek hasil tokenisasi dan penghapusan stopwords pada dataset.

In [35]:
df_cleaned_text

Unnamed: 0,text,extracted_text,cleaned_text,normalized_text,tokens,tokens_no_stopwords,token_formatted,no_stopwords_formatted,processed
0,R a d i t’s comment: pasti pada muak bngt ting...,pasti pada muak bngt tinggal di Indonesian 😭😭,pasti pada muak bngt tinggal di indonesian,pasti pada muak banget tinggal di indonesia,"[pasti, pada, muak, banget, tinggal, di, indon...","[muak, banget, tinggal, indonesia]","[pasti, pada, muak, banget, tinggal, di, indon...","[muak, banget, tinggal, indonesia]",muak banget tinggal indonesia
1,zulfa suci lestari’s comment: syarat di indo :...,syarat di indo : harus berpenampilan menarik.\...,syarat di indo harus berpenampilan menarik dar...,syarat di indonesia harus berpenampilan menari...,"[syarat, di, indonesia, harus, berpenampilan, ...","[syarat, indonesia, berpenampilan, menarik, si...","[syarat, di, indonesia, harus, berpenampilan, ...","[syarat, indonesia, berpenampilan, menarik, si...",syarat indonesia berpenampilan menarik situ aj...
2,matayu’s comment: bukan ga nasionalis tapi rea...,bukan ga nasionalis tapi realistis,bukan ga nasionalis tapi realistis,bukan tidak nasionalis tapi realistis,"[bukan, tidak, nasionalis, tapi, realistis]","[nasionalis, realistis]","[bukan, tidak, nasionalis, tapi, realistis]","[nasionalis, realistis]",nasionalis realistis
3,TongTong SONG’s comment: di jepang mudah cari ...,di jepang mudah cari kerja di indonesia harus ...,di jepang mudah cari kerja di indonesia harus ...,di jepang mudah cari kerja di indonesia harus ...,"[di, jepang, mudah, cari, kerja, di, indonesia...","[jepang, mudah, cari, kerja, indonesia, avatar...","[di, jepang, mudah, cari, kerja, di, indonesia...","[jepang, mudah, cari, kerja, indonesia, avatar...",jepang mudah cari kerja indonesia avatar kerja
4,shella.’s comment: ingat GUYS. belum terlambat...,ingat GUYS. belum terlambat kalo mau mulai dar...,ingat guys belum terlambat kalo mau mulai dari...,ingat guys belum terlambat kalau mau mulai dar...,"[ingat, guys, belum, terlambat, kalau, mau, mu...",[terlambat],"[ingat, guys, belum, terlambat, kalau, mau, mu...",[terlambat],terlambat
...,...,...,...,...,...,...,...,...,...
15388,18Maret🥳’s comment: ok,ok,ok,ok,[ok],[ok],[ok],[ok],ok
15389,yanfar2411’s comment: Assalamu'alaikum kak,Assalamu'alaikum kak,assalamualaikum kak,assalamualaikum kak,"[assalamualaikum, kak]","[assalamualaikum, kak]","[assalamualaikum, kak]","[assalamualaikum, kak]",assalamualaikum kak
15390,Rudi Saputra’s comment: ikutt🔥🔥🔥,ikutt🔥🔥🔥,ikutt,ikutt,[ikutt],[ikutt],[ikutt],[ikutt],ikutt
15391,26158’s comment: gasss,gasss,gasss,gas,[gas],[gas],[gas],[gas],gas


## **🌱 Inisialisasi Stemmer Sastrawi**

Menyiapkan stemmer Sastrawi khusus untuk bahasa Indonesia yang akan mengubah kata ke bentuk dasarnya.

In [36]:
def init_stemmer():
    """
    Inisialisasi stemmer Sastrawi untuk bahasa Indonesia
    """
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()
    return stemmer

## **🔧 Membuat Instance Stemmer**

Menginisialisasi objek stemmer yang akan digunakan.

In [37]:
stemmer = init_stemmer()

## **🌿 Fungsi Stemming untuk Token**

Membuat fungsi untuk mengubah kata-kata menjadi bentuk dasar (stem) menggunakan Sastrawi.

In [38]:
def stem_tokens(tokens):
    """
    Melakukan stemming pada daftar token menggunakan Sastrawi
    
    Args:
        tokens (list): Daftar token yang akan di-stem
        
    Returns:
        list: Daftar token yang sudah di-stem
    """
    if not isinstance(tokens, list) or not tokens:
        return []
    
    # Lakukan stemming pada setiap token
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    
    return stemmed_tokens

## **🔄 Menerapkan Stemming ke Dataset**

Mengaplikasikan proses stemming ke seluruh dataset untuk mendapatkan bentuk dasar dari setiap kata.

In [39]:
df_processed = df_cleaned_text.copy()

df_processed['tokens_no_stopwords_and_stemmed'] = df_processed['tokens_no_stopwords'].apply(stem_tokens)

## **🎨 Memformat Hasil Stemming**

Memformat hasil stemming untuk memudahkan visualisasi dan analisis.

In [40]:
def format_tokens_list(tokens):
    """
    Memformat daftar token menjadi string dengan format [token1, token2, ...]
    """
    if not isinstance(tokens, list):
        return "[]"
    
    if not tokens:
        return "[]"
    
    # Format token menjadi string yang diinginkan
    return str(tokens).replace("'", "")

df_processed['tokens_no_stopwords_and_stemmed_formatted'] = df_processed['tokens_no_stopwords_and_stemmed'].apply(format_tokens_list)

## **🔄 Gabung Token Hasil Stemming**

Menggabungkan token-token yang sudah di-stem menjadi teks utuh kembali.

In [41]:
def join_tokens(tokens):
    """
    Menggabungkan daftar token menjadi teks (dipisahkan oleh spasi)
    """
    if not isinstance(tokens, list) or not tokens:
        return ""
    
    return " ".join(tokens)

# Terapkan fungsi join pada tokens yang sudah di-stem
df_processed['processed_stemmed'] = df_processed['tokens_no_stopwords_and_stemmed'].apply(join_tokens)

## **📊 Membuat DataFrame Final**

Menyusun DataFrame final yang berisi semua hasil preprocessing yang telah dilakukan.

In [42]:
df_final = pd.DataFrame({
    'text': df_processed['text'],
    'extracted_text': df_processed['extracted_text'],
    'cleaned_text': df_processed['cleaned_text'],
    'normalized_text': df_processed['normalized_text'],
    'tokens_no_stopwords_and_stemmed': df_processed['tokens_no_stopwords_and_stemmed'],
    'tokens_no_stopwords_and_stemmed_formatted': df_processed['tokens_no_stopwords_and_stemmed_formatted'],
    'processed': df_processed['processed_stemmed']
})

In [43]:
print("DataFrame final setelah stemming:")
df_final

DataFrame final setelah stemming:


Unnamed: 0,text,extracted_text,cleaned_text,normalized_text,tokens_no_stopwords_and_stemmed,tokens_no_stopwords_and_stemmed_formatted,processed
0,R a d i t’s comment: pasti pada muak bngt ting...,pasti pada muak bngt tinggal di Indonesian 😭😭,pasti pada muak bngt tinggal di indonesian,pasti pada muak banget tinggal di indonesia,"[muak, banget, tinggal, indonesia]","[muak, banget, tinggal, indonesia]",muak banget tinggal indonesia
1,zulfa suci lestari’s comment: syarat di indo :...,syarat di indo : harus berpenampilan menarik.\...,syarat di indo harus berpenampilan menarik dar...,syarat di indonesia harus berpenampilan menari...,"[syarat, indonesia, tampil, tarik, situ, aja, ...","[syarat, indonesia, tampil, tarik, situ, aja, ...",syarat indonesia tampil tarik situ aja kalah
2,matayu’s comment: bukan ga nasionalis tapi rea...,bukan ga nasionalis tapi realistis,bukan ga nasionalis tapi realistis,bukan tidak nasionalis tapi realistis,"[nasionalis, realistis]","[nasionalis, realistis]",nasionalis realistis
3,TongTong SONG’s comment: di jepang mudah cari ...,di jepang mudah cari kerja di indonesia harus ...,di jepang mudah cari kerja di indonesia harus ...,di jepang mudah cari kerja di indonesia harus ...,"[jepang, mudah, cari, kerja, indonesia, avatar...","[jepang, mudah, cari, kerja, indonesia, avatar...",jepang mudah cari kerja indonesia avatar kerja
4,shella.’s comment: ingat GUYS. belum terlambat...,ingat GUYS. belum terlambat kalo mau mulai dar...,ingat guys belum terlambat kalo mau mulai dari...,ingat guys belum terlambat kalau mau mulai dar...,[lambat],[lambat],lambat
...,...,...,...,...,...,...,...
15388,18Maret🥳’s comment: ok,ok,ok,ok,[ok],[ok],ok
15389,yanfar2411’s comment: Assalamu'alaikum kak,Assalamu'alaikum kak,assalamualaikum kak,assalamualaikum kak,"[assalamualaikum, kak]","[assalamualaikum, kak]",assalamualaikum kak
15390,Rudi Saputra’s comment: ikutt🔥🔥🔥,ikutt🔥🔥🔥,ikutt,ikutt,[ikutt],[ikutt],ikutt
15391,26158’s comment: gasss,gasss,gasss,gas,[gas],[gas],gas


## **💾 Menyimpan Hasil Preprocessing**

Menyimpan dataset hasil preprocessing ke dalam file CSV.

In [44]:
df_final.to_csv('full-data/result/tiktok_comments_full_cleaned.csv', index=False)

## **🔍 Memeriksa Kolom dan Shape di DataFrame Final**

Melihat kolom-kolom yang ada di DataFrame hasil preprocessing.

In [45]:
df_final.columns

Index(['text', 'extracted_text', 'cleaned_text', 'normalized_text',
       'tokens_no_stopwords_and_stemmed',
       'tokens_no_stopwords_and_stemmed_formatted', 'processed'],
      dtype='object')

In [46]:
df_final.shape

(14423, 7)

## **🔄 Menggabungkan DataFrame Hasil Preprocessing dengan Data Original**

Menggabungkan DataFrame hasil preprocessing dengan data metadata original untuk mendapatkan dataset lengkap.

In [47]:
df_combined_final = df_final.merge(df_useful[['text', 'likes', 'reply_count', 'created_time_formatted', 
                                        'is_pinned', 'is_reply', 'user_verified', 'comment_language']], 
                             on='text', how='left')

In [48]:
df_combined_final

Unnamed: 0,text,extracted_text,cleaned_text,normalized_text,tokens_no_stopwords_and_stemmed,tokens_no_stopwords_and_stemmed_formatted,processed,likes,reply_count,created_time_formatted,is_pinned,is_reply,user_verified,comment_language
0,R a d i t’s comment: pasti pada muak bngt ting...,pasti pada muak bngt tinggal di Indonesian 😭😭,pasti pada muak bngt tinggal di indonesian,pasti pada muak banget tinggal di indonesia,"[muak, banget, tinggal, indonesia]","[muak, banget, tinggal, indonesia]",muak banget tinggal indonesia,5290,50,2025-02-17 05:41:38,False,True,False,id
1,zulfa suci lestari’s comment: syarat di indo :...,syarat di indo : harus berpenampilan menarik.\...,syarat di indo harus berpenampilan menarik dar...,syarat di indonesia harus berpenampilan menari...,"[syarat, indonesia, tampil, tarik, situ, aja, ...","[syarat, indonesia, tampil, tarik, situ, aja, ...",syarat indonesia tampil tarik situ aja kalah,1711,14,2025-02-17 05:26:15,False,True,False,id
2,matayu’s comment: bukan ga nasionalis tapi rea...,bukan ga nasionalis tapi realistis,bukan ga nasionalis tapi realistis,bukan tidak nasionalis tapi realistis,"[nasionalis, realistis]","[nasionalis, realistis]",nasionalis realistis,1698,3,2025-02-17 05:54:08,False,True,False,id
3,TongTong SONG’s comment: di jepang mudah cari ...,di jepang mudah cari kerja di indonesia harus ...,di jepang mudah cari kerja di indonesia harus ...,di jepang mudah cari kerja di indonesia harus ...,"[jepang, mudah, cari, kerja, indonesia, avatar...","[jepang, mudah, cari, kerja, indonesia, avatar...",jepang mudah cari kerja indonesia avatar kerja,1256,13,2025-02-17 05:16:01,False,True,False,id
4,shella.’s comment: ingat GUYS. belum terlambat...,ingat GUYS. belum terlambat kalo mau mulai dar...,ingat guys belum terlambat kalo mau mulai dari...,ingat guys belum terlambat kalau mau mulai dar...,[lambat],[lambat],lambat,613,2,2025-02-17 05:11:20,False,True,False,id
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16550,18Maret🥳’s comment: ok,ok,ok,ok,[ok],[ok],ok,0,0,2025-02-14 11:04:16,False,True,False,en
16551,yanfar2411’s comment: Assalamu'alaikum kak,Assalamu'alaikum kak,assalamualaikum kak,assalamualaikum kak,"[assalamualaikum, kak]","[assalamualaikum, kak]",assalamualaikum kak,0,0,2025-02-14 11:04:15,False,True,False,ms
16552,Rudi Saputra’s comment: ikutt🔥🔥🔥,ikutt🔥🔥🔥,ikutt,ikutt,[ikutt],[ikutt],ikutt,0,0,2025-02-14 11:01:28,False,True,False,id
16553,26158’s comment: gasss,gasss,gasss,gas,[gas],[gas],gas,0,0,2025-02-14 11:01:27,False,True,False,id


## **🧹 Membersihkan Missing Values dari Hasil Penggabungan**

Menghapus baris dengan nilai yang hilang dari dataset gabungan.

In [49]:
df_combined_final = df_combined_final.dropna()

In [50]:
df_combined_final.isnull().sum()

text                                         0
extracted_text                               0
cleaned_text                                 0
normalized_text                              0
tokens_no_stopwords_and_stemmed              0
tokens_no_stopwords_and_stemmed_formatted    0
processed                                    0
likes                                        0
reply_count                                  0
created_time_formatted                       0
is_pinned                                    0
is_reply                                     0
user_verified                                0
comment_language                             0
dtype: int64

## **📊 Dataset Final yang Siap Dianalisis**

Melihat bentuk akhir dataset yang telah melalui seluruh proses preprocessing dan siap untuk analisis.

In [51]:
df_combined_final

Unnamed: 0,text,extracted_text,cleaned_text,normalized_text,tokens_no_stopwords_and_stemmed,tokens_no_stopwords_and_stemmed_formatted,processed,likes,reply_count,created_time_formatted,is_pinned,is_reply,user_verified,comment_language
0,R a d i t’s comment: pasti pada muak bngt ting...,pasti pada muak bngt tinggal di Indonesian 😭😭,pasti pada muak bngt tinggal di indonesian,pasti pada muak banget tinggal di indonesia,"[muak, banget, tinggal, indonesia]","[muak, banget, tinggal, indonesia]",muak banget tinggal indonesia,5290,50,2025-02-17 05:41:38,False,True,False,id
1,zulfa suci lestari’s comment: syarat di indo :...,syarat di indo : harus berpenampilan menarik.\...,syarat di indo harus berpenampilan menarik dar...,syarat di indonesia harus berpenampilan menari...,"[syarat, indonesia, tampil, tarik, situ, aja, ...","[syarat, indonesia, tampil, tarik, situ, aja, ...",syarat indonesia tampil tarik situ aja kalah,1711,14,2025-02-17 05:26:15,False,True,False,id
2,matayu’s comment: bukan ga nasionalis tapi rea...,bukan ga nasionalis tapi realistis,bukan ga nasionalis tapi realistis,bukan tidak nasionalis tapi realistis,"[nasionalis, realistis]","[nasionalis, realistis]",nasionalis realistis,1698,3,2025-02-17 05:54:08,False,True,False,id
3,TongTong SONG’s comment: di jepang mudah cari ...,di jepang mudah cari kerja di indonesia harus ...,di jepang mudah cari kerja di indonesia harus ...,di jepang mudah cari kerja di indonesia harus ...,"[jepang, mudah, cari, kerja, indonesia, avatar...","[jepang, mudah, cari, kerja, indonesia, avatar...",jepang mudah cari kerja indonesia avatar kerja,1256,13,2025-02-17 05:16:01,False,True,False,id
4,shella.’s comment: ingat GUYS. belum terlambat...,ingat GUYS. belum terlambat kalo mau mulai dar...,ingat guys belum terlambat kalo mau mulai dari...,ingat guys belum terlambat kalau mau mulai dar...,[lambat],[lambat],lambat,613,2,2025-02-17 05:11:20,False,True,False,id
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16550,18Maret🥳’s comment: ok,ok,ok,ok,[ok],[ok],ok,0,0,2025-02-14 11:04:16,False,True,False,en
16551,yanfar2411’s comment: Assalamu'alaikum kak,Assalamu'alaikum kak,assalamualaikum kak,assalamualaikum kak,"[assalamualaikum, kak]","[assalamualaikum, kak]",assalamualaikum kak,0,0,2025-02-14 11:04:15,False,True,False,ms
16552,Rudi Saputra’s comment: ikutt🔥🔥🔥,ikutt🔥🔥🔥,ikutt,ikutt,[ikutt],[ikutt],ikutt,0,0,2025-02-14 11:01:28,False,True,False,id
16553,26158’s comment: gasss,gasss,gasss,gas,[gas],[gas],gas,0,0,2025-02-14 11:01:27,False,True,False,id


## **💾 Menyimpan Dataset Final**

Menyimpan dataset final hasil seluruh proses preprocessing ke dalam file CSV untuk digunakan dalam analisis sentimen.

In [52]:
df_combined_final = df_combined_final.dropna()

In [53]:
df_combined_final.to_csv('full-data/result/clean_data.csv', index=False)

## **🎉 Selesai! Data Siap untuk Analisis Sentimen**

Dataset telah melalui serangkaian proses preprocessing yang komprehensif dan kini siap digunakan untuk analisis sentimen mendalam tentang fenomena #kaburajadulu!