In [7]:
# Import libraries
import pandas as pd
import re
import unicodedata
import demoji

# Download emoji data (run once)
demoji.download_codes()

  demoji.download_codes()


In [8]:
df = pd.read_csv('data_filtered.csv')
print(f"Total komentar: {len(df)}")
print("\nContoh data awal:")
df.head()

Total komentar: 1072

Contoh data awal:


Unnamed: 0,Video_ID,Teks_Komentar,text_normalized_temp
0,MIo4tGN11j0,"Sempat mikir mau pindah ke negara sebelah, nge...","sempat mikir mau pindah ke negara sebelah, nge..."
1,MIo4tGN11j0,"Kalo kabur mau kemana ke Singapur ,emang di Si...","kalau kabur mau kemana ke singapur ,emang di s..."
2,MIo4tGN11j0,Klo sudah gelap susah terangnya lebih baik bubar,kalau sudah gelap susah terangnya lebih baik b...
3,MIo4tGN11j0,Siap siap ente motivator Indonesia gelap...dap...,siap siap ente motivator indonesia gelap...dap...
4,MIo4tGN11j0,"Diskusi yg segar,menarik dan bermutu... Antara...","diskusi yang segar,menarik dan bermutu... anta..."


## 2. Preprocessing Teks

Melakukan preprocessing data dengan 5 tahap terpisah yang modular

In [9]:
import pandas as pd
import demoji
from nltk.corpus import stopwords

# --- 1. Inisialisasi Alat (Sekali saja) ---
print("="*60)
print("INISIALISASI PREPROCESSING TOOLS")
print("="*60)

# Impor Stemmer dari Sastrawi
try:
    from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
    print("‚úÖ Sastrawi Stemmer berhasil dimuat")
    factory = StemmerFactory()
    stemmer_sastrawi = factory.create_stemmer()
except ImportError:
    print("‚ùå ERROR: Library Sastrawi tidak ditemukan.")
    print("   Silakan instal dengan: pip install Sastrawi")
    raise

# Import indoNLP untuk preprocessing slang dan elongation
try:
    from indonlp.preprocessing import replace_slang, replace_word_elongation
    print("‚úÖ indoNLP preprocessing berhasil dimuat")
except ImportError:
    print("‚ö†Ô∏è  WARNING: Library indoNLP tidak ditemukan.")
    print("   Silakan instal dengan: pip install indonlp")
    print("   Preprocessing akan tetap berjalan tanpa indoNLP.")
    replace_slang = lambda x: x
    replace_word_elongation = lambda x: x

# --- 2. Buat Daftar KEYWORD untuk Filter (dari Cell 4) ---
KEYWORD = [
    'kabur', 'pindah negara', 'leave indo', 'pajak', 'gaji', 'umr', 
    'biaya hidup', 'korupsi', 'sandwich', 'luar negeri', 
    'paspor', 'warga negara', 'singapur', 'singapore', 'australia', 'aussie', 'jepang', 'eropa', 'wni',
    'capek', 'lelah', 'pemerintah', 'mending', 'percuma', 'beban', 
    'suram', 'males', 'ga jelas', 'ga ada harapan', 'nyicil', 'susah',
    'setuju', 'sulit', 'stres', 'politik', 'birokrasi', 'konoha'
]

# Buat set untuk pencarian cepat saat stemming
KEYWORD_SET = set()
for keyword in KEYWORD:
    # Pecah multi-word keywords jadi single word
    KEYWORD_SET.update(keyword.lower().split())

print(f"‚úÖ KEYWORD dimuat: {len(KEYWORD)} frasa ‚Üí {len(KEYWORD_SET)} kata unik")

# --- 3. Buat Daftar Stopwords Gabungan ---
stop_words_indo = set(stopwords.words('indonesian'))
stop_words_eng = set(stopwords.words('english'))

# Stopwords gaul dan kata rojak (bahasa Inggris umum)
custom_stopwords_gaul = {
    'yg', 'dg', 'rt', 'dgn', 'ny', 'd', 'klo', 'kalo', 'amp', 'biar', 'bkn', 'na', 
    'nya', 'nih', 'sih', 'si', 'tau', 'tuh', 'utk', 'ya', 'gaes',
    'bang', 'bro', 'sob', 'gw', 'gua', 'lu', 'lo', 'wkwk', 'haha', 'wkwkwk', 
    'amin', 'amiin', 'aamiin', 'yuk', 'dong', 'deh', 'kok',
    # Kata rojak (bahasa Inggris umum yang tidak bisa di-stem)
    'government', 'tax', 'salary', 'system', 'netizen', 'the', 'and', 'or', 'in', 'of', 'to', 'is', 'for'
}

# --- 4. Daftar Kata NEGASI yang TIDAK BOLEH dihapus ---
NEGASI_WORDS = {
    'tidak', 'bukan', 'jangan', 'ga', 'gak', 'enggak', 'nggak', 'ndak', 'engga', 'belum', 'tanpa'
}

# Gabungkan semua stopwords, KECUALI kata negasi dan keyword penting
stop_words_final = (stop_words_indo.union(stop_words_eng, custom_stopwords_gaul)) - NEGASI_WORDS - KEYWORD_SET

print("‚úÖ Stopwords berhasil dimuat:")
print(f"   - Indonesia       : {len(stop_words_indo)} kata")
print(f"   - Inggris         : {len(stop_words_eng)} kata")
print(f"   - Gaul + Rojak    : {len(custom_stopwords_gaul)} kata")
print(f"   - TOTAL           : {len(stop_words_final)} kata (setelah exclude negasi & keyword)")
print(f"   - Negasi (PROTECT): {NEGASI_WORDS}")
print(f"   - Keyword (PROTECT): {len(KEYWORD_SET)} kata")

print("\n" + "="*60)


# --- 5. Definisi Fungsi Preprocessing Pipeline ---

def tahap1_cleaning(teks):
    """
    Tahap 2: Membersihkan teks mentah dari URL, HTML, emoji,
    normalisasi slang, elongasi, tanda baca, dan angka.
    
    DENGAN indoNLP untuk slang dan elongation!
    """
    if pd.isna(teks):
        return ""
    
    teks = str(teks)
    
    # 1. Hapus URL
    teks = re.sub(r'http\S+|www\.\S+', '', teks)
    
    # 2. Hapus HTML tags
    teks = re.sub(r'<.*?>', '', teks)
    
    # 3. Hapus SEMUA emoji (tanpa konversi ke tag)
    teks = demoji.replace(teks, '')
    
    # 4. Normalisasi Unicode (font aneh)
    teks = unicodedata.normalize('NFKD', teks)
    
    # 5. Lowercase
    teks = teks.lower()
    
    # 6. Ganti slang menggunakan indoNLP
    teks = replace_slang(teks)
    
    # 7. Ganti elongasi (kata berulang) menggunakan indoNLP
    teks = replace_word_elongation(teks)
    
    # 8. Hapus tanda baca dan angka (sisakan huruf dan spasi)
    teks = re.sub(r'[^a-z\s]', ' ', teks)
    
    # 9. Hapus spasi berlebih
    teks = re.sub(r'\s+', ' ', teks).strip()
    
    return teks


def tahap2_tokenisasi(teks):
    """
    Tahap 3a: Tokenisasi - Memecah teks menjadi list kata-kata.
    """
    if not teks or pd.isna(teks):
        return []
    
    # Pecah berdasarkan spasi
    tokens = teks.split()
    
    # Filter kata yang terlalu pendek (< 3 karakter), KECUALI kata negasi pendek
    tokens = [kata for kata in tokens if len(kata) >= 3 or kata in {'ga', 'gak'}]
    
    return tokens


def tahap2_5_negation_tagging(tokens):
    """
    Tahap 3b: Negation Handling - Normalisasi semua kata negasi menjadi 'tidak'.
    
    Semua variasi negasi (ga, gak, enggak, dll) ‚Üí 'tidak'
    Tetap sebagai 2 token terpisah, TF-IDF bigram akan menangkap pola.
    
    Contoh: ['gaji', 'ga', 'naik'] -> ['gaji', 'tidak', 'naik']
    """
    if not tokens or len(tokens) == 0:
        return []
    
    tokens_normalized = []
    
    for token in tokens:
        # Jika kata ini adalah negasi, ganti dengan 'tidak' yang standar
        if token in NEGASI_WORDS:
            tokens_normalized.append('tidak')
        else:
            tokens_normalized.append(token)
    
    return tokens_normalized


def tahap4_stemming(tokens):
    """
    Tahap 4: Stemming - Mengubah kata ke bentuk dasar.
    
    PENTING: Skip stemming untuk:
    - Kata yang ada di KEYWORD_SET (kata kunci penting topik)
    - Kata 'tidak' (kata negasi standar)
    """
    if not tokens:
        return []
    
    tokens_stemmed = []
    for kata in tokens:
        # Jika kata adalah keyword penting, JANGAN di-stem
        if kata in KEYWORD_SET:
            tokens_stemmed.append(kata)
        # Jangan stem kata 'tidak'
        elif kata == 'tidak':
            tokens_stemmed.append(kata)
        else:
            # Kata biasa, stem seperti biasa
            tokens_stemmed.append(stemmer_sastrawi.stem(kata))
    
    return tokens_stemmed


def tahap3_stopword_removal(tokens):
    """
    Tahap 5: Hapus Stopwords dari list tokens.
    
    Dilakukan SETELAH stemming.
    JANGAN hapus: kata 'tidak' dan keyword penting.
    """
    if not tokens:
        return []
    
    tokens_bersih = []
    for kata in tokens:
        # Jangan hapus kata 'tidak' (negasi)
        if kata == 'tidak':
            tokens_bersih.append(kata)
        # Jangan hapus keyword penting
        elif kata in KEYWORD_SET:
            tokens_bersih.append(kata)
        # Hapus stopwords biasa
        elif kata not in stop_words_final:
            tokens_bersih.append(kata)
    
    return tokens_bersih


def tahap5_gabung_kembali(tokens):
    """
    Tahap 6: Gabungkan tokens menjadi teks final.
    """
    if not tokens:
        return ""
    
    return " ".join(tokens)

print("‚úÖ Semua fungsi preprocessing pipeline sudah siap!")
print("\nüìã URUTAN PIPELINE:")
print("   Tahap 1: Filter Konteks & Noise")
print("   Tahap 2: Cleaning (URL, HTML, Hapus Emoji, Slang, Elongasi, Tanda Baca)")
print("   Tahap 3: Tokenisasi + Negation Normalization (ga/gak/enggak ‚Üí tidak)")
print("   Tahap 4: Stemming (skip keyword & 'tidak')")
print("   Tahap 5: Stopword Removal (preserve negasi & keyword)")
print("   Tahap 6: Gabung Kembali")
print("="*60)

INISIALISASI PREPROCESSING TOOLS
‚úÖ Sastrawi Stemmer berhasil dimuat
   Silakan instal dengan: pip install indonlp
   Preprocessing akan tetap berjalan tanpa indoNLP.
‚úÖ KEYWORD dimuat: 37 frasa ‚Üí 43 kata unik
‚úÖ Stopwords berhasil dimuat:
   - Indonesia       : 757 kata
   - Inggris         : 198 kata
   - Gaul + Rojak    : 51 kata
   - TOTAL           : 985 kata (setelah exclude negasi & keyword)
   - Negasi (PROTECT): {'bukan', 'nggak', 'ga', 'enggak', 'jangan', 'ndak', 'tanpa', 'gak', 'belum', 'engga', 'tidak'}
   - Keyword (PROTECT): 43 kata

‚úÖ Semua fungsi preprocessing pipeline sudah siap!

üìã URUTAN PIPELINE:
   Tahap 1: Filter Konteks & Noise
   Tahap 2: Cleaning (URL, HTML, Hapus Emoji, Slang, Elongasi, Tanda Baca)
   Tahap 3: Tokenisasi + Negation Normalization (ga/gak/enggak ‚Üí tidak)
   Tahap 4: Stemming (skip keyword & 'tidak')
   Tahap 5: Stopword Removal (preserve negasi & keyword)
   Tahap 6: Gabung Kembali


### Tahap 1: Cleaning

Membersihkan teks dari URL, HTML, emoji, tanda baca, dan angka

In [10]:
print("="*60)
print("üìù TAHAP 2/6: CLEANING")
print("="*60)
print("Membersihkan URL, HTML, emoji‚Üítag, slang, elongasi, tanda baca...")

df['teks_tahap1'] = df['text_normalized_temp'].apply(tahap1_cleaning)

print("‚úÖ Selesai!")
print(f"\nContoh hasil cleaning:")
print(f"ASLI  : {df['Teks_Komentar'].iloc[0][:80]}...")
print(f"CLEAN : {df['teks_tahap1'].iloc[0][:80]}...")
print("="*60)


üìù TAHAP 2/6: CLEANING
Membersihkan URL, HTML, emoji‚Üítag, slang, elongasi, tanda baca...
‚úÖ Selesai!

Contoh hasil cleaning:
ASLI  : Sempat mikir mau pindah ke negara sebelah, ngeapply citizenship. Tapi yah, aku c...
CLEAN : sempat mikir mau pindah ke negara sebelah ngeapply citizenship tapi yah aku cint...


### Tahap 3: Tokenisasi & Negation Tagging

Memecah teks menjadi kata-kata dan menggabungkan kata negasi dengan kata berikutnya

In [11]:
print("="*60)
print("üìù TAHAP 3/6: TOKENISASI & NEGATION NORMALIZATION")
print("="*60)
print("Memecah teks menjadi kata-kata...")

# Tahap 3a: Tokenisasi
df['tokens_tahap2'] = df['teks_tahap1'].apply(tahap2_tokenisasi)

print("‚úÖ Tokenisasi selesai!")
print(f"\nContoh hasil tokenisasi:")
tokens_contoh = df['tokens_tahap2'].iloc[0]
print(f"TEKS   : {df['teks_tahap1'].iloc[0][:60]}...")
print(f"TOKENS : {tokens_contoh[:8]}...")
print(f"JUMLAH : {len(tokens_contoh)} kata")

# Tahap 3b: Negation Normalization
print("\nMenormalisasi kata negasi (ga/gak/enggak ‚Üí tidak)...")
df['tokens_tahap2_5'] = df['tokens_tahap2'].apply(tahap2_5_negation_tagging)

print("‚úÖ Negation normalization selesai!")
print(f"\nContoh hasil:")
tokens_before = df['tokens_tahap2'].iloc[0]
tokens_after = df['tokens_tahap2_5'].iloc[0]
print(f"SEBELUM : {tokens_before[:8]}...")
print(f"SESUDAH : {tokens_after[:8]}...")
print(f"\nüí° Contoh: 'gaji ga naik' ‚Üí 'gaji tidak naik'")
print("   TF-IDF bigram akan menangkap: 'tidak naik', 'tidak bagus', dll")
print("="*60)

üìù TAHAP 3/6: TOKENISASI & NEGATION NORMALIZATION
Memecah teks menjadi kata-kata...
‚úÖ Tokenisasi selesai!

Contoh hasil tokenisasi:
TEKS   : sempat mikir mau pindah ke negara sebelah ngeapply citizensh...
TOKENS : ['sempat', 'mikir', 'mau', 'pindah', 'negara', 'sebelah', 'ngeapply', 'citizenship']...
JUMLAH : 21 kata

Menormalisasi kata negasi (ga/gak/enggak ‚Üí tidak)...
‚úÖ Negation normalization selesai!

Contoh hasil:
SEBELUM : ['sempat', 'mikir', 'mau', 'pindah', 'negara', 'sebelah', 'ngeapply', 'citizenship']...
SESUDAH : ['sempat', 'mikir', 'mau', 'pindah', 'negara', 'sebelah', 'ngeapply', 'citizenship']...

üí° Contoh: 'gaji ga naik' ‚Üí 'gaji tidak naik'
   TF-IDF bigram akan menangkap: 'tidak naik', 'tidak bagus', dll


### Tahap 4: Stemming

Mengubah kata ke bentuk dasar (SKIP keyword penting dan tag)

In [12]:
print("="*60)
print("üìù TAHAP 4/6: STEMMING")
print("="*60)
print("Mengubah kata ke bentuk dasar...")
print("‚ö†Ô∏è  Proses ini lambat, harap sabar...")
print("üí° Keyword penting & tag (TIDAK_, _EMOJI_) akan di-skip")

df['tokens_tahap3'] = df['tokens_tahap2_5'].apply(tahap4_stemming)

print("‚úÖ Selesai!")
print(f"\nContoh hasil stemming:")
tokens_before = df['tokens_tahap2_5'].iloc[0]
tokens_after = df['tokens_tahap3'].iloc[0]
print(f"SEBELUM : {tokens_before[:6]}")
print(f"SESUDAH : {tokens_after[:6]}")
print("="*60)


üìù TAHAP 4/6: STEMMING
Mengubah kata ke bentuk dasar...
‚ö†Ô∏è  Proses ini lambat, harap sabar...
üí° Keyword penting & tag (TIDAK_, _EMOJI_) akan di-skip
‚úÖ Selesai!

Contoh hasil stemming:
SEBELUM : ['sempat', 'mikir', 'mau', 'pindah', 'negara', 'sebelah']
SESUDAH : ['sempat', 'mikir', 'mau', 'pindah', 'negara', 'belah']


### Tahap 5: Stopword Removal

Menghapus stopwords SETELAH stemming (preserve negasi, emoji, dan keyword)

In [13]:
print("="*60)
print("üìù TAHAP 5/6: STOPWORD REMOVAL")
print("="*60)
print("Menghapus stopwords (preserve: negasi, emoji tag, keyword)...")

df['tokens_tahap4'] = df['tokens_tahap3'].apply(tahap3_stopword_removal)

print("‚úÖ Selesai!")
print(f"\nContoh hasil stopword removal:")
tokens_before = df['tokens_tahap3'].iloc[0]
tokens_after = df['tokens_tahap4'].iloc[0]
print(f"SEBELUM : {tokens_before[:8]}...")
print(f"SESUDAH : {tokens_after[:8]}...")
print(f"JUMLAH  : {len(tokens_before)} kata ‚Üí {len(tokens_after)} kata")
print(f"REDUKSI : {len(tokens_before) - len(tokens_after)} kata dihapus")
print("="*60)


üìù TAHAP 5/6: STOPWORD REMOVAL
Menghapus stopwords (preserve: negasi, emoji tag, keyword)...
‚úÖ Selesai!

Contoh hasil stopword removal:
SEBELUM : ['sempat', 'mikir', 'mau', 'pindah', 'negara', 'belah', 'ngeapply', 'citizenship']...
SESUDAH : ['mikir', 'pindah', 'negara', 'belah', 'ngeapply', 'citizenship', 'yah', 'cinta']...
JUMLAH  : 21 kata ‚Üí 14 kata
REDUKSI : 7 kata dihapus


### Tahap 6: Gabung Kembali & Simpan

Menggabungkan tokens menjadi teks final dan menyimpan hasil

In [14]:
print("="*60)
print("üìù TAHAP 6/6: GABUNG KEMBALI & SIMPAN")
print("="*60)
print("Menggabungkan tokens menjadi teks final...")

df['teks_final'] = df['tokens_tahap4'].apply(tahap5_gabung_kembali)

# Buang baris dengan teks kosong setelah preprocessing
df_final = df[df['teks_final'].str.strip() != ''].copy()

print("‚úÖ Selesai!")
print(f"\nüìä Ringkasan:")
print(f"   Total komentar valid     : {len(df_final):,}")
print(f"   Komentar kosong terbuang : {len(df) - len(df_final):,}")

# Load dan gabung dengan sentiment dari dataset_labeled.csv
print("\nMenggabungkan dengan label sentiment...")
df_labeled = pd.read_csv('dataset_labeled.csv')
df_final = df_final.merge(
    df_labeled[['Teks_Komentar', 'sentiment']], 
    on='Teks_Komentar', 
    how='left'
)

print(f"‚úÖ Sentiment berhasil digabungkan!")
print(f"\nDistribusi sentiment:")
print(df_final['sentiment'].value_counts())

# Simpan hasil akhir
output_file = 'data_preprocessed.csv'
df_final[['Teks_Komentar', 'teks_final', 'sentiment']].to_csv(output_file, index=False, encoding='utf-8')
print(f"\nüíæ Data berhasil disimpan ke '{output_file}'")

# Tampilkan contoh hasil
print(f"\nüìã Contoh hasil akhir:")
for i in range(min(3, len(df_final))):
    print(f"\n   [{i+1}] SENTIMENT: {df_final['sentiment'].iloc[i]}")
    print(f"       ASLI     : {df_final['Teks_Komentar'].iloc[i][:60]}...")
    print(f"       FINAL    : {df_final['teks_final'].iloc[i][:60]}...")

print("\n" + "="*60)
print("üéâ PREPROCESSING SELESAI!")
print("="*60)
print("\nüìå PIPELINE YANG DITERAPKAN:")
print("   ‚úÖ Tahap 1: Filter Konteks & Noise (Strategi LONGGAR)")
print("   ‚úÖ Tahap 2: Cleaning (URL, HTML, Hapus Emoji, Slang, Elongasi)")
print("   ‚úÖ Tahap 3: Tokenisasi + Negation Normalization (ga/gak ‚Üí tidak)")
print("   ‚úÖ Tahap 4: Stemming (skip keyword & 'tidak')")
print("   ‚úÖ Tahap 5: Stopword Removal (preserve negasi & keyword)")
print("   ‚úÖ Tahap 6: Gabung Kembali + Merge Sentiment Label")

üìù TAHAP 6/6: GABUNG KEMBALI & SIMPAN
Menggabungkan tokens menjadi teks final...
‚úÖ Selesai!

üìä Ringkasan:
   Total komentar valid     : 1,072
   Komentar kosong terbuang : 0

Menggabungkan dengan label sentiment...
‚úÖ Sentiment berhasil digabungkan!

Distribusi sentiment:
sentiment
Positif    695
Netral     204
Negatif    181
Name: count, dtype: int64

üíæ Data berhasil disimpan ke 'data_preprocessed.csv'

üìã Contoh hasil akhir:

   [1] SENTIMENT: Negatif
       ASLI     : Sempat mikir mau pindah ke negara sebelah, ngeapply citizens...
       FINAL    : mikir pindah negara belah ngeapply citizenship yah cinta neg...

   [2] SENTIMENT: Negatif
       ASLI     : Kalo kabur mau kemana ke Singapur ,emang di Singapur tinggal...
       FINAL    : kabur singapur emang singapur tinggal rakyat singapur tidak ...

   [3] SENTIMENT: Positif
       ASLI     : Klo sudah gelap susah terangnya lebih baik bubar...
       FINAL    : gelap susah terang bubar...

üéâ PREPROCESSING SELESAI!



In [15]:
# Lihat detail preprocessing untuk 3 contoh pertama
print("="*80)
print("DETAIL HASIL SETIAP TAHAP PREPROCESSING")
print("="*80)

for i in range(min(3, len(df_final))):
    print(f"\n{'='*80}")
    print(f"CONTOH {i+1}")
    print(f"{'='*80}")
    print(f"\n0. ASLI:")
    print(f"   {df_final['Teks_Komentar'].iloc[i][:100]}...")
    
    print(f"\n1. CLEANING (Tahap 2):")
    print(f"   {df_final['teks_tahap1'].iloc[i][:100]}...")
    
    print(f"\n2. TOKENISASI (Tahap 3a):")
    tokens_2 = df_final['tokens_tahap2'].iloc[i]
    print(f"   {tokens_2[:10]}...")
    print(f"   (Total: {len(tokens_2)} kata)")
    
    print(f"\n3. NEGATION NORMALIZATION (Tahap 3b):")
    tokens_2_5 = df_final['tokens_tahap2_5'].iloc[i]
    print(f"   {tokens_2_5[:10]}...")
    print(f"   (Total: {len(tokens_2_5)} kata)")
    
    print(f"\n4. STEMMING (Tahap 4):")
    tokens_3 = df_final['tokens_tahap3'].iloc[i]
    print(f"   {tokens_3[:10]}...")
    print(f"   (Total: {len(tokens_3)} kata)")
    
    print(f"\n5. STOPWORD REMOVAL (Tahap 5):")
    tokens_4 = df_final['tokens_tahap4'].iloc[i]
    print(f"   {tokens_4[:10]}...")
    print(f"   (Total: {len(tokens_4)} kata)")
    
    print(f"\n6. FINAL - GABUNG KEMBALI (Tahap 6):")
    print(f"   {df_final['teks_final'].iloc[i][:100]}...")
    print()

print("="*80)
print("\n*** PERHATIKAN ***")
print("   - Kata negasi (ga/gak/enggak) ‚Üí dinormalisasi ke 'tidak'")
print("   - Format: 'gaji tidak naik' (2 token terpisah, bukan TIDAK_naik)")
print("   - TF-IDF bigram akan menangkap: 'tidak naik', 'tidak bagus', dll")
print("   - Emoji telah DIHAPUS dari data")
print("   - Keyword penting (pajak, gaji, dll) tidak di-stem")
print("="*80)

DETAIL HASIL SETIAP TAHAP PREPROCESSING

CONTOH 1

0. ASLI:
   Sempat mikir mau pindah ke negara sebelah, ngeapply citizenship. Tapi yah, aku cinta negara dan hara...

1. CLEANING (Tahap 2):
   sempat mikir mau pindah ke negara sebelah ngeapply citizenship tapi yah aku cinta negara dan harapan...

2. TOKENISASI (Tahap 3a):
   ['sempat', 'mikir', 'mau', 'pindah', 'negara', 'sebelah', 'ngeapply', 'citizenship', 'tapi', 'yah']...
   (Total: 21 kata)

3. NEGATION NORMALIZATION (Tahap 3b):
   ['sempat', 'mikir', 'mau', 'pindah', 'negara', 'sebelah', 'ngeapply', 'citizenship', 'tapi', 'yah']...
   (Total: 21 kata)

4. STEMMING (Tahap 4):
   ['sempat', 'mikir', 'mau', 'pindah', 'negara', 'belah', 'ngeapply', 'citizenship', 'tapi', 'yah']...
   (Total: 21 kata)

5. STOPWORD REMOVAL (Tahap 5):
   ['mikir', 'pindah', 'negara', 'belah', 'ngeapply', 'citizenship', 'yah', 'cinta', 'negara', 'harap']...
   (Total: 14 kata)

6. FINAL - GABUNG KEMBALI (Tahap 6):
   mikir pindah negara belah ngeapply c