# STEP 1 — Case Folding

In [20]:
import os
import pandas as pd

def case_folding(text):
    """Mengubah teks menjadi huruf kecil (lowercase)."""
    if pd.isna(text):
        return ""
    return text.lower()

def step1_casefolding(input_file="0_mergeDataset.csv", save_to="fix_data"):
    """Melakukan case folding langsung dari file CSV tunggal."""
    os.makedirs(save_to, exist_ok=True)

    # Pastikan file ada
    if not os.path.exists(input_file):
        print(f"❌ File {input_file} tidak ditemukan.")
        return

    # Baca file CSV langsung (bukan dari folder)
    df = pd.read_csv(input_file)
    print(f"🔹 Melakukan Case Folding pada file: {input_file}")

    # Pastikan kolom tersedia
    if 'judul' not in df.columns or 'konten' not in df.columns:
        print("⚠️ File tidak memiliki kolom 'judul' dan 'konten'. Proses dihentikan.")
        return

    # Terapkan case folding
    df['judul'] = df['judul'].astype(str).apply(case_folding)
    df['konten'] = df['konten'].astype(str).apply(case_folding)

    # Simpan hasil ke folder fix_data
    output_path = os.path.join(save_to, "step1_casefolding.csv")
    df.to_csv(output_path, index=False, encoding='utf-8')
    print(f"✅ Step 1 selesai — hasil disimpan di: {output_path}")

if __name__ == "__main__":
    step1_casefolding()


🔹 Melakukan Case Folding pada file: 0_mergeDataset.csv
✅ Step 1 selesai — hasil disimpan di: fix_data\step1_casefolding.csv


# Cleaning

In [21]:
import os
import re
import string
import pandas as pd

def cleaning(text):
    """Menghapus angka dan tanda baca dari teks."""
    if pd.isna(text):
        return ""
    text = re.sub(r'\d+', '', text)  # hapus angka
    text = text.translate(str.maketrans('', '', string.punctuation))  # hapus tanda baca
    return text.strip()

def step2_cleaning(input_file="fix_data/step1_casefolding.csv", output_file="fix_data/step2_cleaning.csv"):
    """Membersihkan teks dari angka dan tanda baca, hasil disimpan ke file baru."""
    os.makedirs(os.path.dirname(output_file), exist_ok=True)

    # Pastikan file input ada
    if not os.path.exists(input_file):
        print(f"❌ File {input_file} tidak ditemukan.")
        return

    print(f"🔹 Membaca file: {input_file}")
    df = pd.read_csv(input_file)

    # Pastikan kolom sesuai
    if 'judul' not in df.columns or 'konten' not in df.columns:
        print("⚠️ File tidak memiliki kolom 'judul' dan 'konten'. Proses dihentikan.")
        return

    print("🧹 Membersihkan teks (hapus angka & tanda baca)...")
    df['judul'] = df['judul'].astype(str).apply(cleaning)
    df['konten'] = df['konten'].astype(str).apply(cleaning)

    # Simpan hasil
    df.to_csv(output_file, index=False, encoding='utf-8')
    print(f"✅ Step 2 selesai — hasil disimpan di: {output_file}")

if __name__ == "__main__":
    step2_cleaning()


🔹 Membaca file: fix_data/step1_casefolding.csv
🧹 Membersihkan teks (hapus angka & tanda baca)...
✅ Step 2 selesai — hasil disimpan di: fix_data/step2_cleaning.csv


# Tokenizing

In [22]:
import os
import pandas as pd

def tokenizing(text):
    """Memecah teks menjadi token (berdasarkan spasi)."""
    if pd.isna(text):
        return []
    return text.split()

def step3_tokenizing(input_file="fix_data/step2_cleaning.csv", output_file="fix_data/step3_tokenizing.csv"):
    """Melakukan tokenisasi pada kolom 'judul' dan 'konten'."""
    os.makedirs(os.path.dirname(output_file), exist_ok=True)

    # Pastikan file input ada
    if not os.path.exists(input_file):
        print(f"❌ File {input_file} tidak ditemukan.")
        return

    print(f"🔹 Membaca file: {input_file}")
    df = pd.read_csv(input_file)

    # Pastikan kolom sesuai
    if 'judul' not in df.columns or 'konten' not in df.columns:
        print("⚠️ File tidak memiliki kolom 'judul' dan 'konten'. Proses dihentikan.")
        return

    print("✂️ Melakukan tokenisasi teks...")
    df['judul'] = df['judul'].astype(str).apply(tokenizing)
    df['konten'] = df['konten'].astype(str).apply(tokenizing)

    # Simpan hasil tokenisasi
    df.to_csv(output_file, index=False, encoding='utf-8')
    print(f"✅ Step 3 selesai — hasil disimpan di: {output_file}")

if __name__ == "__main__":
    step3_tokenizing()


🔹 Membaca file: fix_data/step2_cleaning.csv
✂️ Melakukan tokenisasi teks...
✅ Step 3 selesai — hasil disimpan di: fix_data/step3_tokenizing.csv


# Stopword Removal

In [23]:
import os
import pandas as pd
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

# Inisialisasi daftar stopword Bahasa Indonesia
stop_factory = StopWordRemoverFactory()
stopwords_id = set(stop_factory.get_stop_words())

def remove_stopwords(tokens):
    """Menghapus stopword dari token list."""
    if isinstance(tokens, str):
        # Pastikan format list dari CSV diubah kembali ke list kata
        tokens = tokens.strip("[]").replace("'", "").split(", ")
    return [word for word in tokens if word not in stopwords_id]

def step4_stopword(input_file="fix_data/step3_tokenizing.csv", output_file="fix_data/step4_stopword.csv"):
    """Menghapus stopword dari kolom 'judul' dan 'konten'."""
    os.makedirs(os.path.dirname(output_file), exist_ok=True)

    # Pastikan file input ada
    if not os.path.exists(input_file):
        print(f"❌ File {input_file} tidak ditemukan.")
        return

    print(f"🔹 Membaca file: {input_file}")
    df = pd.read_csv(input_file)

    # Pastikan kolom sesuai
    if 'judul' not in df.columns or 'konten' not in df.columns:
        print("⚠️ File tidak memiliki kolom 'judul' dan 'konten'. Proses dihentikan.")
        return

    print("🧹 Menghapus stopword...")
    df['judul'] = df['judul'].apply(remove_stopwords)
    df['konten'] = df['konten'].apply(remove_stopwords)

    # Simpan hasilnya
    df.to_csv(output_file, index=False, encoding='utf-8')
    print(f"✅ Step 4 selesai — hasil disimpan di: {output_file}")

if __name__ == "__main__":
    step4_stopword()


🔹 Membaca file: fix_data/step3_tokenizing.csv
🧹 Menghapus stopword...
✅ Step 4 selesai — hasil disimpan di: fix_data/step4_stopword.csv


# Stemming

In [24]:
import os
import pandas as pd
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Inisialisasi stemmer Bahasa Indonesia
stemmer = StemmerFactory().create_stemmer()

def stemming(tokens):
    """Melakukan stemming pada list token atau teks string."""
    if isinstance(tokens, str):
        tokens = tokens.strip("[]").replace("'", "").split(", ")
    text = ' '.join(tokens)
    return stemmer.stem(text)

def step5_stemming(input_file="fix_data/step4_stopword.csv", output_file="fix_data/step5_stemming.csv", n_rows=5):
    """Melakukan stemming pada kolom 'judul' dan 'konten'."""
    os.makedirs(os.path.dirname(output_file), exist_ok=True)

    # Pastikan file input ada
    if not os.path.exists(input_file):
        print(f"❌ File {input_file} tidak ditemukan.")
        return

    print(f"🔹 Membaca file: {input_file}")
    df = pd.read_csv(input_file)
    
     # Ambil hanya 5 baris pertama untuk tes
    df = df.head(n_rows)
    print(f"🧪 Memproses {len(df)} baris pertama untuk pengujian...")

    # Pastikan kolom sesuai
    if 'judul' not in df.columns or 'konten' not in df.columns:
        print("⚠️ File tidak memiliki kolom 'judul' dan 'konten'. Proses dihentikan.")
        return

    print("🌾 Melakukan stemming pada teks (judul & konten)...")
    df['judul'] = df['judul'].apply(stemming)
    df['konten'] = df['konten'].apply(stemming)

    # Simpan hasil ke file baru
    df.to_csv(output_file, index=False, encoding='utf-8')
    print(f"✅ Step 5 selesai — hasil disimpan di: {output_file}")

if __name__ == "__main__":
    step5_stemming()


🔹 Membaca file: fix_data/step4_stopword.csv
🧪 Memproses 5 baris pertama untuk pengujian...
🌾 Melakukan stemming pada teks (judul & konten)...
✅ Step 5 selesai — hasil disimpan di: fix_data/step5_stemming.csv
