# Text Preprocessing untuk Analisis Sentimen

Notebook ini melakukan text preprocessing untuk analisis sentimen Twitter tentang sertifikasi halal.

**Tahapan Preprocessing:**
1. Case Folding (lowercase)
2. Cleaning (hapus simbol & angka)
3. Tokenizing
4. Stopword Removal

**PENTING:** Stemming TIDAK digunakan karena merusak kata-kata penting seperti 'sertifikasi' → 'rtifikas'

In [None]:
import pandas as pd
import re
from collections import Counter

In [None]:
# Load data hasil cleaning
df = pd.read_csv('data/hasil_cleaning.csv')
print(f'Jumlah data awal: {len(df)}')
df.head()

## 1. Setup Stopwords

Daftar stopword Bahasa Indonesia yang komprehensif.

In [None]:
# Stopwords Bahasa Indonesia - komprehensif
STOPWORDS = set([
    # Kata ganti
    'saya', 'aku', 'kamu', 'anda', 'dia', 'ia', 'kami', 'kita', 'mereka',
    'beliau', 'engkau', 'kalian', 'gue', 'gw', 'lo', 'lu',
    # Kata tunjuk
    'ini', 'itu', 'sini', 'situ', 'sana',
    # Kata depan
    'di', 'ke', 'dari', 'pada', 'dalam', 'dengan', 'untuk', 'oleh',
    'tentang', 'terhadap', 'kepada', 'bagi', 'antara', 'tanpa',
    # Kata hubung
    'dan', 'atau', 'tetapi', 'namun', 'melainkan', 'sedangkan', 'serta',
    'karena', 'sebab', 'jika', 'kalau', 'bila', 'apabila', 'maka',
    'sehingga', 'agar', 'supaya', 'meskipun', 'walaupun', 'walau',
    'sebelum', 'sesudah', 'setelah', 'ketika', 'saat', 'sambil', 'seraya',
    'bahwa', 'yang', 'yaitu', 'yakni',
    # Kata keterangan
    'sangat', 'amat', 'sekali', 'paling', 'lebih', 'kurang', 'agak',
    'cukup', 'hampir', 'hanya', 'saja', 'pun', 'juga', 'lagi', 'masih',
    'sudah', 'telah', 'belum', 'akan', 'sedang', 'baru', 'selalu',
    'sering', 'jarang', 'kadang', 'pernah', 'tidak', 'bukan', 'jangan',
    'tak', 'tiada',
    # Kata bantu
    'adalah', 'ialah', 'merupakan', 'dapat', 'bisa',
    'mampu', 'harus', 'perlu', 'mau', 'ingin', 'hendak',
    # Kata bilangan
    'satu', 'dua', 'tiga', 'empat', 'lima', 'enam', 'tujuh', 'delapan',
    'sembilan', 'sepuluh', 'banyak', 'sedikit', 'semua', 'seluruh',
    'setiap', 'tiap', 'para', 'beberapa', 'sebagian',
    # Kata tanya
    'apa', 'siapa', 'mana', 'kapan', 'dimana', 'kemana', 'darimana',
    'bagaimana', 'mengapa', 'kenapa', 'berapa',
    # Kata lainnya
    'hal', 'cara', 'sesuatu', 'begitu', 'demikian', 'seperti', 'sebagai',
    'secara', 'melalui', 'hingga', 'sampai', 'sejak', 'selama', 'sepanjang',
    'tersebut', 'tadi', 'kemarin', 'besok', 'nanti', 'kini', 'sekarang',
    'dulu', 'dahulu', 'lalu', 'kemudian', 'lantas',
    # Partikel
    'nya', 'mu', 'ku', 'kah', 'lah', 'pun',
    # Kata gaul/slang Twitter
    'dong', 'deh', 'sih', 'nih', 'nah', 'yah', 'ya', 'oh', 'ah',
    'eh', 'kok', 'kan', 'tuh', 'gitu', 'gini', 'aja', 'doang',
    'banget', 'bgt', 'yg', 'dgn', 'utk', 'krn', 'jd', 'jdi', 'tp', 'tpi',
    'sm', 'dr', 'pd', 'dl', 'bs', 'ga', 'gak', 'gk', 'ngga', 'nggak',
    'udah', 'udh', 'sdh', 'blm', 'lg', 'jg', 'aj',
    'klo', 'kalo', 'emang', 'emg', 'bener', 'bnr', 'gmn', 'gmna'
])

print(f'Jumlah stopword: {len(STOPWORDS)}')

## 2. Fungsi Preprocessing

In [None]:
def case_folding(text):
    """Mengubah semua huruf menjadi lowercase."""
    if pd.isna(text) or text == '':
        return ''
    return str(text).lower()


def cleaning(text):
    """Menghapus simbol, angka, dan karakter non-huruf."""
    if not text:
        return ''
    # Hapus semua karakter kecuali huruf dan spasi
    text = re.sub(r'[^a-zA-Z\s]', ' ', text)
    # Hapus spasi berlebih
    text = re.sub(r'\s+', ' ', text)
    return text.strip()


def tokenize(text):
    """Memecah teks menjadi list kata (token)."""
    if not text:
        return []
    tokens = text.split()
    # Filter kata yang terlalu pendek (1-2 karakter)
    tokens = [t for t in tokens if len(t) > 2]
    return tokens


def remove_stopwords(tokens):
    """Menghapus stopword bahasa Indonesia dari list token."""
    if not tokens:
        return []
    return [t for t in tokens if t not in STOPWORDS]


def preprocess(text):
    """
    Fungsi utama untuk preprocessing teks.
    Tahapan: Case folding -> Cleaning -> Tokenizing -> Stopword removal
    TANPA STEMMING untuk menjaga kata tetap utuh.
    """
    if pd.isna(text) or text == '':
        return ''
    
    # 1. Case folding
    text = case_folding(text)
    
    # 2. Cleaning (hapus simbol & angka)
    text = cleaning(text)
    
    # 3. Tokenizing
    tokens = tokenize(text)
    
    # 4. Stopword removal
    tokens = remove_stopwords(tokens)
    
    # Join kembali menjadi string
    return ' '.join(tokens)

## 3. Test Fungsi Preprocessing

In [None]:
# Test preprocessing - kata harus tetap utuh!
test_cases = [
    "Sertifikasi halal sangat penting untuk masyarakat Indonesia!!!",
    "Produk ini sudah memiliki sertifikasi halal dari MUI @user123",
    "UMKM wajib tahu batas sertifikasi halal kian dekat 2026"
]

print("Test Preprocessing (TANPA STEMMING - kata tetap utuh):")
print("="*70)
for text in test_cases:
    result = preprocess(text)
    print(f"\nBefore: {text}")
    print(f"After:  {result}")

# Verifikasi kata penting tetap utuh
print("\n" + "="*70)
print("VERIFIKASI: Kata 'sertifikasi' harus tetap 'sertifikasi', BUKAN 'rtifikas'")
test = preprocess("sertifikasi halal")
print(f"Input: 'sertifikasi halal' -> Output: '{test}'")
assert 'sertifikasi' in test, "ERROR: Kata sertifikasi rusak!"
print("✓ Kata 'sertifikasi' tetap utuh!")

## 4. Apply Preprocessing ke Dataset

In [None]:
# Apply preprocessing
print("Memulai preprocessing...")
print(f"Jumlah data awal: {len(df)}")

df['preprocessed_text'] = df['cleaned_text'].apply(preprocess)

print("Preprocessing selesai!")

In [None]:
# Preview hasil
print("Contoh hasil preprocessing:")
print("="*70)
for i in range(min(5, len(df))):
    print(f"\n--- Data {i+1} ---")
    cleaned = str(df['cleaned_text'].iloc[i])
    preprocessed = str(df['preprocessed_text'].iloc[i])
    print(f"Cleaned:      {cleaned[:80]}..." if len(cleaned) > 80 else f"Cleaned:      {cleaned}")
    print(f"Preprocessed: {preprocessed[:80]}..." if len(preprocessed) > 80 else f"Preprocessed: {preprocessed}")

In [None]:
# Filter data kosong
print(f"Jumlah data sebelum filter: {len(df)}")
df = df[df['preprocessed_text'].str.len() > 0].reset_index(drop=True)
print(f"Jumlah data setelah filter: {len(df)}")

# Info dataset
print(f"\nKolom: {df.columns.tolist()}")
df[['cleaned_text', 'preprocessed_text']].head(10)

## 5. Simpan Hasil

In [None]:
# Simpan hasil preprocessing
df.to_csv('data/hasil_preprocessing.csv', index=False)
print("Data berhasil disimpan ke data/hasil_preprocessing.csv")

## 6. Statistik

In [None]:
# Top 30 kata paling sering muncul
all_words = ' '.join(df['preprocessed_text']).split()
word_freq = Counter(all_words)

print("Top 30 kata paling sering muncul:")
print("="*40)
for i, (word, count) in enumerate(word_freq.most_common(30), 1):
    print(f"{i:2}. {word}: {count}")

# Verifikasi kata penting
important_words = ['sertifikasi', 'halal', 'makanan', 'produk', 'muslim', 'indonesia', 'haram']
print("\nVerifikasi kata penting (harus tetap utuh):")
print("="*40)
for word in important_words:
    count = word_freq.get(word, 0)
    print(f"{word}: {count} kemunculan")

## Ringkasan

Preprocessing selesai dengan tahapan:
1. **Case Folding** - Mengubah semua huruf menjadi lowercase
2. **Cleaning** - Menghapus simbol, angka, dan karakter non-huruf
3. **Tokenizing** - Memecah teks menjadi kata-kata (filter kata < 3 karakter)
4. **Stopword Removal** - Menghapus kata-kata tidak penting

**TANPA STEMMING** - Kata seperti 'sertifikasi', 'halal' tetap utuh.