#   Preprocessing Berita

In [1]:
import pandas as pd

# Load data from berita_cnn.csv
df = pd.read_csv('berita_cnn.csv')

In [2]:
# Display basic information about the dataset
print("Dataset shape:", df.shape)
df

Dataset shape: (1600, 4)


Unnamed: 0,judul,kategori,isi,link
0,Dasco Beber Materi Rapat Bareng Menkeu Purbaya...,nasional,Wakil Ketua DPRSufmi Dasco Ahmadmengungkap isi...,https://www.cnnindonesia.com/nasional/20251009...
1,Nikita Mirzani Dituntut 11 Tahun Penjara & Den...,nasional,Jaksa Penuntut Umum (JPU) menuntut majelis hak...,https://www.cnnindonesia.com/nasional/20251009...
2,Fadli Zon Pugar Situs Gunung Padang: Ini Piram...,nasional,Menteri KebudayaanFadli Zonmembeberkan rencana...,https://www.cnnindonesia.com/nasional/20251009...
3,Tiga Purnawirawan TNI dan Polri Gabung Komite ...,nasional,Sebanyak tiga purnawirawan TNI/Polri bergabung...,https://www.cnnindonesia.com/nasional/20251009...
4,Ammar Zoni Diduga Jual Sabu hingga Ganja Sinte...,nasional,AktorAmmar Zonikembali terlibat dalam kasus pe...,https://www.cnnindonesia.com/nasional/20251009...
...,...,...,...,...
1595,Minat Pindah ke Selandia Baru? Sekarang Syarat...,gaya-hidup,Selandia Barubaru saja mengumumkan bahwa negar...,https://www.cnnindonesia.com/gaya-hidup/202509...
1596,"Cek, Begini Gejala Awal Munculnya Gagal Ginjal",gaya-hidup,Gagal ginjaltermasuk penyakit serius yang dapa...,https://www.cnnindonesia.com/gaya-hidup/202509...
1597,Pertolongan Pertama saat Anak Alami Keracunan ...,gaya-hidup,Kasuskeracunanusai menyantap programmakan berg...,https://www.cnnindonesia.com/gaya-hidup/202509...
1598,Cerita Samantha 'Tuangkan' Kanker Payudara dal...,gaya-hidup,Berkesenian jadi sarana para pejuangkankerpayu...,https://www.cnnindonesia.com/gaya-hidup/202509...


In [3]:
print("\nDataset info:")
df.info()


Dataset info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1600 entries, 0 to 1599
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   judul     1582 non-null   object
 1   kategori  1600 non-null   object
 2   isi       1600 non-null   object
 3   link      1600 non-null   object
dtypes: object(4)
memory usage: 50.1+ KB


#   PREPROCESSING

In [4]:
# Tampilkan data "isi"
df['isi']

0       Wakil Ketua DPRSufmi Dasco Ahmadmengungkap isi...
1       Jaksa Penuntut Umum (JPU) menuntut majelis hak...
2       Menteri KebudayaanFadli Zonmembeberkan rencana...
3       Sebanyak tiga purnawirawan TNI/Polri bergabung...
4       AktorAmmar Zonikembali terlibat dalam kasus pe...
                              ...                        
1595    Selandia Barubaru saja mengumumkan bahwa negar...
1596    Gagal ginjaltermasuk penyakit serius yang dapa...
1597    Kasuskeracunanusai menyantap programmakan berg...
1598    Berkesenian jadi sarana para pejuangkankerpayu...
1599    Atlet ski Polandia, Andrzej Bargiel mencatat s...
Name: isi, Length: 1600, dtype: object

## Hapus Missing Value dan Data Duplicat

In [5]:
# Hapus baris dengan Missing Value di 'isi'
df.dropna(subset=['isi'], inplace=True)

# Hapus data duplikat
df.drop_duplicates(inplace=True)

## Test Cleaning

In [6]:
import re

# Fungsi untuk membersihkan teks
def clean_text(text):
    text = text.lower() # Ubah ke huruf kecil
    text = re.sub(r'[^\w\s]', '', text) # Hapus tanda baca
    text = re.sub(r'\d+', '', text) # Hapus nomor
    return text

# Terapkan pembersihan ke kolom 'isi'
df['cleaned_isi'] = df['isi'].apply(clean_text)

# Tampilkan DataFrame
display(df[['isi', 'cleaned_isi']].head())

Unnamed: 0,isi,cleaned_isi
0,Wakil Ketua DPRSufmi Dasco Ahmadmengungkap isi...,wakil ketua dprsufmi dasco ahmadmengungkap isi...
1,Jaksa Penuntut Umum (JPU) menuntut majelis hak...,jaksa penuntut umum jpu menuntut majelis hakim...
2,Menteri KebudayaanFadli Zonmembeberkan rencana...,menteri kebudayaanfadli zonmembeberkan rencana...
3,Sebanyak tiga purnawirawan TNI/Polri bergabung...,sebanyak tiga purnawirawan tnipolri bergabung ...
4,AktorAmmar Zonikembali terlibat dalam kasus pe...,aktorammar zonikembali terlibat dalam kasus pe...


## Tokenisasi

In [7]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') 

# Fungsi untuk melakukan tokenisasi
def tokenize_text(text):
    return word_tokenize(text)

# Terapkan tokenisasi ke kolom 'cleaned_isi'
df['tokenized_isi'] = df['cleaned_isi'].apply(tokenize_text)

# Tampilkan DataFrame dengan kolom hasil tokenisasi
display(df[['cleaned_isi', 'tokenized_isi']].head())

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,cleaned_isi,tokenized_isi
0,wakil ketua dprsufmi dasco ahmadmengungkap isi...,"[wakil, ketua, dprsufmi, dasco, ahmadmengungka..."
1,jaksa penuntut umum jpu menuntut majelis hakim...,"[jaksa, penuntut, umum, jpu, menuntut, majelis..."
2,menteri kebudayaanfadli zonmembeberkan rencana...,"[menteri, kebudayaanfadli, zonmembeberkan, ren..."
3,sebanyak tiga purnawirawan tnipolri bergabung ...,"[sebanyak, tiga, purnawirawan, tnipolri, berga..."
4,aktorammar zonikembali terlibat dalam kasus pe...,"[aktorammar, zonikembali, terlibat, dalam, kas..."


## Stopword Removal

In [8]:
from nltk.corpus import stopwords
nltk.download('stopwords')

# Dapatkan Stop Word bahasa Indonesia
list_stopwords = set(stopwords.words('indonesian'))

# Fungsi untuk menghapus stop words
def remove_stopwords(tokens):
    return [word for word in tokens if word not in list_stopwords]

# Terapkan penghapusan Stop Word ke kolom 'tokenized_isi'
df['stopwords_removed_isi'] = df['tokenized_isi'].apply(remove_stopwords)

# Tampilkan DataFrame
display(df[['tokenized_isi', 'stopwords_removed_isi']].head())

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,tokenized_isi,stopwords_removed_isi
0,"[wakil, ketua, dprsufmi, dasco, ahmadmengungka...","[wakil, ketua, dprsufmi, dasco, ahmadmengungka..."
1,"[jaksa, penuntut, umum, jpu, menuntut, majelis...","[jaksa, penuntut, jpu, menuntut, majelis, haki..."
2,"[menteri, kebudayaanfadli, zonmembeberkan, ren...","[menteri, kebudayaanfadli, zonmembeberkan, ren..."
3,"[sebanyak, tiga, purnawirawan, tnipolri, berga...","[purnawirawan, tnipolri, bergabung, dalamkomit..."
4,"[aktorammar, zonikembali, terlibat, dalam, kas...","[aktorammar, zonikembali, terlibat, peredaran,..."


## Stemming

In [9]:
!pip install Sastrawi

Collecting Sastrawi
  Using cached Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Using cached Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
Installing collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [10]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Buat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi untuk melakukan stemming
def stem_tokens(tokens):
    return [stemmer.stem(token) for token in tokens]

# Terapkan stemming ke kolom 'stopwords_removed_isi'
df['stemmed_isi'] = df['stopwords_removed_isi'].apply(stem_tokens)

# Function to find and format stemmed word changes
def get_stemming_changes(original_tokens, stemmed_tokens):
    changes = []
    for original, stemmed in zip(original_tokens, stemmed_tokens):
        if original != stemmed:
            changes.append(f"{original} : {stemmed}")
    return changes

# Dapatkan semua perubahan stemming dari kolom 'stopwords_removed_isi' dan 'stemmed_isi'
all_changes = []
for index, row in df.iterrows():
    all_changes.extend(get_stemming_changes(row['stopwords_removed_isi'], row['stemmed_isi']))

# Dapatkan perubahan unik dan urutkan
unique_changes = sorted(list(set(all_changes)))

# Cetak perubahan unik
print("Kata-kata yang mengalami stemming:")
for change in unique_changes:
    print(change)

# Tampilkan DataFrame
display(df[['stopwords_removed_isi', 'stemmed_isi']].head())

Kata-kata yang mengalami stemming:
abaikan : abai
abangnya : abang
aborsinya : aborsi
absennya : absen
acaranya : acara
acuan : acu
adakah : ada
adegannya : adegan
adikku : adik
adiknya : adik
adonan : adon
aduan : adu
afiliasinya : afiliasi
agendanya : agenda
agensi : agens
agensinya : agens
agresinya : agresi
aguni : agun
ahlinya : ahli
airnya : air
ajakan : aja
ajaran : ajar
ajukan : aju
akademiknya : akademik
akhiran : akhir
akibatkan : akibat
akibatnya : akibat
akrabnya : akrab
akselerasinya : akselerasi
aksesi : akses
aksesorinya : aksesori
aksinya : aksi
aktifkan : aktif
aktifnya : aktif
aktivisnya : aktivis
aktivitasnya : aktivitas
akui : aku
akunnya : akun
alaminya : alami
alamnya : alam
alasan : alas
alasannya : alas
alaïa : ala a
albumnya : album
alfan : alf
aliansinya : aliansi
alihkan : alih
aliran : alir
almamaternya : almamater
alternatifnya : alternatif
alurnya : alur
amanatkan : amanat
amankan : aman
amati : amat
ambisinya : ambisi
ambruknya : ambruk
ambulan : ambul
am

Unnamed: 0,stopwords_removed_isi,stemmed_isi
0,"[wakil, ketua, dprsufmi, dasco, ahmadmengungka...","[wakil, ketua, dprsufmi, dasco, ahmadmengungka..."
1,"[jaksa, penuntut, jpu, menuntut, majelis, haki...","[jaksa, tuntut, jpu, tuntut, majelis, hakim, a..."
2,"[menteri, kebudayaanfadli, zonmembeberkan, ren...","[menteri, kebudayaanfadli, zonmembeberkan, ren..."
3,"[purnawirawan, tnipolri, bergabung, dalamkomit...","[purnawirawan, tnipolri, gabung, dalamkomite, ..."
4,"[aktorammar, zonikembali, terlibat, peredaran,...","[aktorammar, zonikembali, libat, edar, barang,..."


In [11]:
from collections import Counter

# Gabungkan semua token yang bertangkai menjadi satu daftar
all_stemmed_words = [word for tokens in df['stemmed_isi'] for word in tokens]

# Hitung frekuensi setiap kata
word_frequencies = Counter(all_stemmed_words)

# Menampilkan kata-kata yang paling umum dan frekuensinya
print("Top Most Frequent Words:")
for word, frequency in word_frequencies.most_common():
    print(f"{word}: {frequency}")

Top Most Frequent Words:
indonesia: 2741
to: 1741
with: 1710
content: 1703
scroll: 1702
continue: 1702
advertisement: 1701
jalan: 1156
milik: 1126
dunia: 1103
rp: 1094
menteri: 1063
perintah: 1002
arab: 960
hasil: 945
persen: 936
saudi: 901
israel: 893
orang: 875
salah: 845
main: 792
jakarta: 771
negara: 753
temu: 739
tingkat: 738
usaha: 735
kendara: 700
bangun: 659
juta: 657
masyarakat: 642
makan: 629
harga: 612
kerja: 596
sehat: 592
tahan: 586
bantu: 585
timnas: 584
piala: 574
dukung: 555
pilih: 542
air: 536
rumah: 535
kondisi: 532
kuat: 532
laku: 529
kali: 526
presiden: 526
tim: 524
guna: 520
cnn: 520
kait: 518
proses: 518
hadir: 514
langsung: 505
wilayah: 502
alami: 501
mobil: 491
uang: 489
utama: 481
gambasvideo: 479
turun: 478
hukum: 471
aman: 470
tulis: 470
gaza: 470
capai: 458
rabu: 457
cepat: 457
film: 457
oktober: 455
sebut: 448
laga: 446
al: 445
masuk: 444
selasa: 443
dasar: 438
trump: 434
bawa: 428
nama: 425
program: 424
korban: 423
warga: 416
tambah: 411
tampil: 410
motor:

In [12]:
# Buat DataFrame baru dengan isi asli, isi stemmed, dan kategori
processed_df = df[['isi', 'stemmed_isi', 'kategori']].copy()

# Ganti nama kolom
processed_df.rename(columns={'stemmed_isi': 'hasil_preprocessing'}, inplace=True)

# Konversi frekuensi kata ke DataFrame
frequency_df = pd.DataFrame.from_dict(word_frequencies, orient='index', columns=['frequency'])
frequency_df.index.name = 'word'
frequency_df.sort_values(by='frequency', ascending=False, inplace=True)

# Simpan ke dua file CSV terpisah
processed_df.to_csv('hasil_preprocessing_berita.csv', index=False, encoding='utf-8')
frequency_df.to_csv('frekuensi_kata_berita.csv', encoding='utf-8')

print("Hasil preprocessing disimpan di 'hasil_preprocessing_berita.csv'")
print("Frekuensi kata disimpan di 'frekuensi_kata_berita.csv'")

Hasil preprocessing disimpan di 'hasil_preprocessing_berita.csv'
Frekuensi kata disimpan di 'frekuensi_kata_berita.csv'


In [13]:
hasil_preprocessing = "hasil_preprocessing_berita.csv"  
df = pd.read_csv(hasil_preprocessing)

# Tampilkan data
df

Unnamed: 0,isi,hasil_preprocessing,kategori
0,Wakil Ketua DPRSufmi Dasco Ahmadmengungkap isi...,"['wakil', 'ketua', 'dprsufmi', 'dasco', 'ahmad...",nasional
1,Jaksa Penuntut Umum (JPU) menuntut majelis hak...,"['jaksa', 'tuntut', 'jpu', 'tuntut', 'majelis'...",nasional
2,Menteri KebudayaanFadli Zonmembeberkan rencana...,"['menteri', 'kebudayaanfadli', 'zonmembeberkan...",nasional
3,Sebanyak tiga purnawirawan TNI/Polri bergabung...,"['purnawirawan', 'tnipolri', 'gabung', 'dalamk...",nasional
4,AktorAmmar Zonikembali terlibat dalam kasus pe...,"['aktorammar', 'zonikembali', 'libat', 'edar',...",nasional
...,...,...,...
1595,Selandia Barubaru saja mengumumkan bahwa negar...,"['selandia', 'barubaru', 'umum', 'negara', 'lo...",gaya-hidup
1596,Gagal ginjaltermasuk penyakit serius yang dapa...,"['gagal', 'ginjaltermasuk', 'sakit', 'serius',...",gaya-hidup
1597,Kasuskeracunanusai menyantap programmakan berg...,"['kasuskeracunanusai', 'santap', 'programmakan...",gaya-hidup
1598,Berkesenian jadi sarana para pejuangkankerpayu...,"['nian', 'sarana', 'pejuangkankerpayudara', 't...",gaya-hidup


In [14]:
frekuensi_kata = "frekuensi_kata_berita.csv"  
df = pd.read_csv(frekuensi_kata)

# Tampilkan data
df

Unnamed: 0,word,frequency
0,indonesia,2741
1,to,1741
2,with,1710
3,content,1703
4,scroll,1702
...,...,...
23610,hpseconditu,1
23611,casio,1
23612,akselerometer,1
23613,sejumlahaplikasipopuler,1
