In [1]:
import pandas as pd

# Memuat dataset yang akan digunakan
dataset = pd.read_csv('./data/politik_merge.csv')

# Overview dari dataset
dataset.head()

Unnamed: 0,Judul,Waktu,Link,Content,tag1,tag2,tag3,tag4,tag5,source
0,Jokowi Kenakan Pakaian Adat Betawi di Sidang T...,16/08/2024,https://nasional.kompas.com/read/2024/08/16/11...,"JAKARTA, KOMPAS.com - Presiden Joko Widodo me...",Presiden Jokowi,Jokowi,sidang tahunan MPR RI 2024,Jokowi adat Betawi sidang mpr 2024,Megawati tak hadiri sidang tahunan MPR 2024,kompas
1,Amnesty International Beberkan 6 Indikator Kri...,2024-07-18,https://nasional.tempo.co/read/1893144/amnesty...,"TEMPO.CO, Jakarta - Amnesty International Indo...",Amnesty International,Amnesty International Indonesia,Kebebasan Berpendapat,Indeks Demokrasi,Revisi UU TNI,tempo
2,"Jelang Long Weekend, Stasiun Kereta Cepat Hali...","Rabu, 08 Mei 2024 19:18 WIB",https://news.detik.com/berita/d-7331666/jelang...,"Stasiun kereta cepat Whoosh di Halim, Jakarta ...",kereta cepat whoosh,stasiun halim,long weekend,,,detik
3,KPU Tegaskan Pemilih Tak Terdaftar di DPT Bisa...,13/02/2024,https://nasional.kompas.com/read/2024/02/13/21...,"JAKARTA, KOMPAS.com - Komisi Pemilihan Umum (...",KPU,pemilu 2024,Hasyim Asy'ari,,,kompas
4,Kemenag Luncurkan Gerakan Senam Haji Jaga Keta...,2024-04-29,https://nasional.tempo.co/read/1861810/kemenag...,"TEMPO.CO, Jakarta - Kementerian Agama atau Kem...",Senam Haji,Kemenag,Jemaah Haji,Ibadah Haji,Asrama Haji,tempo


In [2]:
# Jumlah baris dan kolom dalam dataset
dataset.shape

(45781, 10)

In [3]:
# Informasi lebih lanjut tentang dataset
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45781 entries, 0 to 45780
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Judul    45746 non-null  object
 1   Waktu    45781 non-null  object
 2   Link     45779 non-null  object
 3   Content  45742 non-null  object
 4   tag1     45703 non-null  object
 5   tag2     45550 non-null  object
 6   tag3     41213 non-null  object
 7   tag4     31040 non-null  object
 8   tag5     19892 non-null  object
 9   source   45709 non-null  object
dtypes: object(10)
memory usage: 3.5+ MB


In [4]:
# Mengubah nama kolom untuk konsistensi
dataset.columns = dataset.columns.str.lower().str.replace(' ', '_')
dataset.head(1)

Unnamed: 0,judul,waktu,link,content,tag1,tag2,tag3,tag4,tag5,source
0,Jokowi Kenakan Pakaian Adat Betawi di Sidang T...,16/08/2024,https://nasional.kompas.com/read/2024/08/16/11...,"JAKARTA, KOMPAS.com - Presiden Joko Widodo me...",Presiden Jokowi,Jokowi,sidang tahunan MPR RI 2024,Jokowi adat Betawi sidang mpr 2024,Megawati tak hadiri sidang tahunan MPR 2024,kompas


In [5]:
# Menghapus kolom yang tidak diperlukan
dataset = dataset.drop(columns=['judul', 'waktu', 'link', 'tag1', 'tag2', 'tag3', 'tag4', 'tag5', 'source'])
dataset.head(1)

Unnamed: 0,content
0,"JAKARTA, KOMPAS.com - Presiden Joko Widodo me..."


In [6]:
# Menghitung jumlah nilai yang hilang (missing values) dalam dataset
dataset.isna().sum()

content    39
dtype: int64

In [7]:
# Rasio dari nilai yang hilang terhadap total data
missing_ratio = dataset.isna().sum() / len(dataset)
print(f"Rasio nilai yang hilang: {missing_ratio}")

Rasio nilai yang hilang: content    0.000852
dtype: float64


In [8]:
# Menhapus baris yang memiliki nilai yang hilang
dataset = dataset.dropna()
dataset.isna().sum()

content    0
dtype: int64

In [9]:
import re

# Preprocessing teks untuk membersihkan konten
def clean_text(text):
    """Preprocessing teks yang akurat dan efisien"""
    if not isinstance(text, str):
        return ""
    
    # Hapus URL
    text = re.sub(r'https?://\S+|www\.\S+', '', text)
    
    # Hapus mention
    text = re.sub(r'@\w+', '', text)
    
    # Ubah hashtag jadi kata biasa
    text = re.sub(r'#(\w+)', r'\1', text)
    
    # Hapus karakter khusus kecuali apostrof dan tanda hubung
    text = re.sub(r'[^\w\s\'\-]', ' ', text)
    
    # Normalisasi apostrof
    text = re.sub(r'[''`]', "'", text)
    
    # Hapus angka standalone
    text = re.sub(r'\b\d+\b', '', text)
    
    # Hapus spasi berlebih
    text = re.sub(r'\s+', ' ', text).strip()
    
    # Hapus kata pendek kecuali yang penting
    words = text.split()
    important_short = {'di', 'ke', 'ku', 'mu', 'ya', 'si', 'se', 'dan', 'ini', 'itu', 'dia', 'ada', 'tak', 'pun', 'nya', 'aku', 'bab', 'hal', 'per', 'pro', 'sub', 'non', 'bio', 'dll', 'dsb', 'pdt', 'dr', 'ir', 'st', 'mt', 'sh', 'mm', 'sm', 'sk', 'sd', 'tk', 'rs', 'rt', 'rw', 'no'}
    filtered_words = [word for word in words if len(word) >= 2 or word in important_short]
    
    return ' '.join(filtered_words)

# Terapkan ke dataset
dataset['cleaned_content'] = dataset['content'].apply(clean_text)
print(dataset['cleaned_content'].sample(1).values[0])

JAKARTA KOMPAS com Sekretaris Jenderal Partai Gerindra Ahmad Muzani melempar pantun ketika ditanya soal Koalisi Indonesia Maju KIM Plus yang disebut-sebut sudah memutuskan mengusung mantan Gubernur Jawa Barat Ridwan Kamil pada Pilkada Jakarta Lewat pantun tersebut Muzani menyebutkan bahwa Jakarta akan semakin hebat jika dipimpin oleh seorang arsitek Untuk diketahui Ridwan Kamila dalah seorang arsitek sebelum berkecimpung di dunia politik Jakarta jawabannya pakai pantun kata Muzani di Kompleks Parlemen Senayan Jakarta Senin Ke Pangkalan Jati beli babat Makan bubur sama lotek Provinsi DKI akan semakin hebat Kalau gubernurnya seorang arsitek ujar dia Kendati demikian Muzani masih merahasiakan sosok yang bakal menjadi calon wakil gubernur mendampingi Ridwan Kamil di Jakarta Enggak tunggu pantun berikutnya ujar dia Wakil ketua MPR itu juga belum mau mengungkap partai politik mana saja yang akan bergabung ke KIM Plus dan mengusung Ridwan Kamil Pokoknya untuk wakil gubernur dan KIM Plus atau 

In [10]:
# Case folding untuk normalisasi huruf kecil
dataset['cleaned_content'] = dataset['cleaned_content'].str.lower()
print(dataset['cleaned_content'].sample(1).values[0])

tempo co jakarta sekretaris jenderal dpp pdi perjuangan pdip hasto kristiyanto mengatakan kecurangan pemilu sangat jelas dan terjadi dari hulu hingga hilir maka hasto menyatakan bahwa pdip mendukung direktorat hukum tim pemenangan nasional tpn ganjar-mahfud untuk mengajukan gugatan ke mahkamah konstitusi mk terhadap hasil yang diumumkan kpu tadi malam sikap dari partai politik pengusung pak ganjar-mahfud menegaskan bahwa proses pemilu belum selesai karena ganjar- mahfud akan menggunakan hak konstitusionalnya untuk melakukan gugatan melalui mahkamah konstitusi dan dalil yang kami sampaikan sangat jelas kata hasto dalam konferensi pers bersama sekjen partai politik pendukung ganjar-mahfud di media center jalan cemara menteng jakarta pusat kamis maret letjen tni purn am putranto ketua pemenangan ahmad luthfi rival eks panglima tni andika perkasa di pilgub jateng hal tersebut dilakukan atas berbagai pertimbangan termasuk soal pentingnya menjaga konstitusi menjaga nilai-nilai demokrasi dan 

In [11]:
from nltk.tokenize import word_tokenize

# Proses tokenisasi 
dataset['tokens'] = [word_tokenize(text) for text in dataset['cleaned_content']]
print(dataset['tokens'].sample(1).values[0])

['komisi', 'pemilihan', 'umum', 'kpu', 'telah', 'menetapkan', 'peraturan', 'dan', 'ketentuan', 'terkait', 'pelaksanaan', 'rekapitulasi', 'hasil', 'penghitungan', 'perolehan', 'suara', 'dan', 'penetapan', 'hasil', 'pemilu', 'hal', 'tersebut', 'memuat', 'tentang', 'tahapan', 'dan', 'jadwal', 'pelaksanaannya', 'sebagaimana', 'tertuang', 'dalam', 'peraturan', 'kpu', 'nomor', 'tahun', 'tentang', 'rekapitulasi', 'hasil', 'penghitungan', 'perolehan', 'suara', 'dan', 'penetapan', 'hasil', 'pemilihan', 'umum', 'dengan', 'petunjuk', 'pelaksanaannya', 'diatur', 'melalui', 'keputusan', 'kpu', 'nomor', 'tahun', 'untuk', 'mengetahui', 'lebih', 'lanjut', 'simak', 'informasi', 'tahapan', 'dan', 'jadwal', 'pelaksanaan', 'kegiatan', 'rekapitulasi', 'penghitungan', 'perolehan', 'suara', 'dan', 'penetapan', 'hasil', 'pemilu', 'sebagaimana', 'diatur', 'dalam', 'peraturan', 'kpu', 'dan', 'keputusan', 'kpu', 'berikut', 'dalam', 'pasal', 'peraturan', 'kpu', 'nomor', 'tahun', 'dijelaskan', 'bahwa', 'tahapan', 

In [12]:
from nltk.corpus import stopwords

# Proses stopword removal
stop_words_frozen = frozenset(stopwords.words('indonesian'))
dataset['stopwords'] = [
    [word for word in tokens if word not in stop_words_frozen]
    for tokens in dataset['tokens']
]

print(dataset['stopwords'].sample(1).values[0])

['tempo', 'co', 'jakarta', 'wakil', 'ketua', 'partai', 'golkar', 'dito', 'ariotedjo', 'buka', 'suara', 'calon', 'pengganti', 'airlangga', 'hartarto', 'mengundurkan', 'sari', 'kursi', 'ketua', 'partai', 'golkar', 'dito', 'mengakui', 'aspirasi', 'internal', 'partai', 'beringin', 'bahlil', 'lahadalia', 'ketua', 'golkar', 'ya', 'mendengar', 'aspirasi', 'mengerucut', 'namanya', 'bang', 'bahlil', 'dito', 'ditemui', 'kantor', 'dewan', 'pimpinan', 'pusat', 'partai', 'golkar', 'slipi', 'jakarta', 'barat', 'selasa', 'agustus', 'dito', 'bahlil', 'terpilih', 'ketua', 'menteri', 'investasi', 'kepala', 'badan', 'koordinasi', 'penanaman', 'modal', 'bkpm', 'memilik', 'kedekatan', 'airlangga', 'menteri', 'pemuda', 'olahraga', 'menilai', 'kedekatan', 'memudahkan', 'bahlil', 'terpilih', 'ketua', 'golkar', 'ya', 'pastinya', 'senior', 'airlangga', 'junior', 'bahli', 'airlangga', 'pastinya', 'membimbing', 'mengkader', 'bang', 'bahlil', 'bang', 'bahlil', 'golkar', 'dito', 'dito', 'penentuan', 'ketua', 'musya

In [13]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import re

# Inisialisasi stemmer sekali saja
factory = StemmerFactory()
stemmer = factory.create_stemmer()

def clean_token(token):
    """Bersihkan token sebelum stemming"""
    if not token or not isinstance(token, str):
        return token
    
    cleaned = re.sub(r'[^a-zA-Z]', '', token.lower())
    return cleaned if cleaned else token

def build_accurate_stem_dict(df):
    """Build stemming dictionary dengan akurasi maksimal"""
    print("Collecting unique words...")
    all_words = set()
    
    # Kumpulkan semua kata unik
    for tokens in df['stopwords']:
        if tokens and isinstance(tokens, list):
            for token in tokens:
                if token and isinstance(token, str) and len(token.strip()) > 0:
                    all_words.add(token.strip())
    
    print(f"Total unique words: {len(all_words):,}")
    
    # Stem setiap kata individual
    stem_dict = {}
    processed = 0
    errors = 0
    
    for word in all_words:
        try:
            cleaned_word = clean_token(word)
            
            if cleaned_word and len(cleaned_word) > 1:
                stemmed = stemmer.stem(cleaned_word)
                
                if stemmed and len(stemmed) <= len(cleaned_word) + 2:
                    stem_dict[word] = stemmed
                else:
                    stem_dict[word] = cleaned_word
                    errors += 1
            else:
                stem_dict[word] = word
                
        except Exception:
            stem_dict[word] = word
            errors += 1
        
        processed += 1
        if processed % 5000 == 0:
            print(f"Processed {processed:,}/{len(all_words):,}")
    
    print(f"Completed! Errors: {errors}")
    return stem_dict

# Build dictionary dengan akurasi maksimal
stem_dict = build_accurate_stem_dict(dataset)

# Apply stemming
dataset['stemmed'] = [[stem_dict.get(token, token) for token in tokens] for tokens in dataset['stopwords']]

# Lihat hasil
print("Sample result:")
print(dataset['stemmed'].sample(1).values[0])

Collecting unique words...
Total unique words: 122,896
Processed 5,000/122,896
Processed 10,000/122,896
Processed 15,000/122,896
Processed 20,000/122,896
Processed 25,000/122,896
Processed 30,000/122,896
Processed 35,000/122,896
Processed 40,000/122,896
Processed 45,000/122,896
Processed 50,000/122,896
Processed 55,000/122,896
Processed 60,000/122,896
Processed 65,000/122,896
Processed 70,000/122,896
Processed 75,000/122,896
Processed 80,000/122,896
Processed 85,000/122,896
Processed 90,000/122,896
Processed 95,000/122,896
Processed 100,000/122,896
Processed 105,000/122,896
Processed 110,000/122,896
Processed 115,000/122,896
Processed 120,000/122,896
Completed! Errors: 20
Sample result:
['pria', 'nama', 'faisal', 'andriansyah', 'tangkap', 'culik', 'siswi', 'smpn', 'jakarta', 'jemput', 'sekolah', 'laku', 'dalih', 'orang', 'tua', 'korban', 'celaka', 'laku', 'rampok', 'korban', 'kabid', 'humas', 'polda', 'metro', 'jaya', 'kombes', 'ade', 'ary', 'syam', 'indradi', 'peristiwa', 'kamis', 'la

In [14]:
# Menampilkan hasil akhir
dataset.head(1)

Unnamed: 0,content,cleaned_content,tokens,stopwords,stemmed
0,"JAKARTA, KOMPAS.com - Presiden Joko Widodo me...",jakarta kompas com presiden joko widodo memaka...,"[jakarta, kompas, com, presiden, joko, widodo,...","[jakarta, kompas, com, presiden, joko, widodo,...","[jakarta, kompas, com, presiden, joko, widodo,..."


In [None]:
# Simpan dataset yang sudah dibersihkan
dataset.to_csv('data/preprocessed_dataset.csv', index=False)