# Preprocessing berita

In [1]:
import pandas as pd

# Load data from berita_cnn.csv
df = pd.read_csv('hasil_scraping_berita_bangsaonline.csv')

In [2]:
# Display basic information about the dataset
print("Dataset shape:", df.shape)
df

Dataset shape: (925, 5)


Unnamed: 0,id_berita,kategori,judul,isi_berita,link
0,153055,Jatim,Ada Santri yang Diduga Dihukum untuk Cor Bangu...,"SIDOARJO,BANGSAONLINE.com- Proses pencarian ko...",https://bangsaonline.com/berita/153055/ada-san...
1,153054,Jatim,"Warga Dringu Lapor Dugaan Penipuan Kavling, Po...","PROBOLINGGO, BANGSAONLINE.com- Polres Probolin...",https://bangsaonline.com/berita/153054/warga-d...
2,153053,Jatim,"Hadiri Pengukuhan Pengurus Kormi Kota Kediri, ...","KOTA KEDIRI, BANGSAONLINE.com- Wakil Wali Kota...",https://bangsaonline.com/berita/153053/hadiri-...
3,153052,Jatim,Datang ke RS William Booth Perpanjang Rujukan ...,"SURABAYA,BANGSAONLINE.com- Polsek Wonokromo m...",https://bangsaonline.com/berita/153052/datang-...
4,153050,Jatim,Polwan Polresta Sidoarjo Layani Keluarga Korba...,"SIDOARJO,BANGSAONLINE.com- Polwan Polresta Sid...",https://bangsaonline.com/berita/153050/polwan-...
...,...,...,...,...,...
920,151945,Komunitas dan Lingkungan,Kebun Binatang Surabaya Hadapi Tantangan Overp...,"SURABAYA,BANGSAONLINE.com-Kebun Binatang Surab...",https://bangsaonline.com/berita/151945/kebun-b...
921,151925,Komunitas dan Lingkungan,"Tradisi Turun-Temurun, Warga Krajan Pasuruan B...","PASURUAN, BANGSAONLINE.com– Suasana semarak me...",https://bangsaonline.com/berita/151925/tradisi...
922,151902,Komunitas dan Lingkungan,Pengusaha Asal Situbondo ini Proyeksi Bakal Ku...,"SURABAYA,BANGSAONLINE.com- HRM. Khalilur R. Ab...",https://bangsaonline.com/berita/151902/pengusa...
923,151848,Komunitas dan Lingkungan,"Doakan Kota Batu Aman dan Damai, KKG PAI Kecam...","KOTA BATU, BANGSAONLINE.com- Kelompok Kerja Gu...",https://bangsaonline.com/berita/151848/doakan-...


In [3]:
print("\nDataset info:")
df.info()


Dataset info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 925 entries, 0 to 924
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id_berita   925 non-null    int64 
 1   kategori    925 non-null    object
 2   judul       925 non-null    object
 3   isi_berita  925 non-null    object
 4   link        925 non-null    object
dtypes: int64(1), object(4)
memory usage: 36.3+ KB


#   PREPROCESSING

In [5]:
# Tampilkan data "isi"
df['isi_berita']

0      SIDOARJO,BANGSAONLINE.com- Proses pencarian ko...
1      PROBOLINGGO, BANGSAONLINE.com- Polres Probolin...
2      KOTA KEDIRI, BANGSAONLINE.com- Wakil Wali Kota...
3      SURABAYA,BANGSAONLINE.com- Polsek Wonokromo  m...
4      SIDOARJO,BANGSAONLINE.com- Polwan Polresta Sid...
                             ...                        
920    SURABAYA,BANGSAONLINE.com-Kebun Binatang Surab...
921    PASURUAN, BANGSAONLINE.com– Suasana semarak me...
922    SURABAYA,BANGSAONLINE.com- HRM. Khalilur R. Ab...
923    KOTA BATU, BANGSAONLINE.com- Kelompok Kerja Gu...
924    TUBAN, BANGSAONLINE.com- Masyarakat Kabupaten ...
Name: isi_berita, Length: 925, dtype: object

## Hapus Missing Value dan Data Duplicat

In [6]:
# Hapus baris dengan Missing Value di 'isi'
df.dropna(subset=['isi_berita'], inplace=True)

# Hapus data duplikat
df.drop_duplicates(inplace=True)

## Test Cleaning

In [9]:
import re

# Fungsi untuk membersihkan teks
def clean_text(text):
    text = text.lower() # Ubah ke huruf kecil
    text = re.sub(r'[^\w\s]', '', text) # Hapus tanda baca
    text = re.sub(r'\d+', '', text) # Hapus nomor
    return text

# Terapkan pembersihan ke kolom 'isi'
df['cleaned_isi'] = df['isi_berita'].apply(clean_text)

# Tampilkan DataFrame
display(df[['isi_berita', 'cleaned_isi']].head())

Unnamed: 0,isi_berita,cleaned_isi
0,"SIDOARJO,BANGSAONLINE.com- Proses pencarian ko...",sidoarjobangsaonlinecom proses pencarian korba...
1,"PROBOLINGGO, BANGSAONLINE.com- Polres Probolin...",probolinggo bangsaonlinecom polres probolinggo...
2,"KOTA KEDIRI, BANGSAONLINE.com- Wakil Wali Kota...",kota kediri bangsaonlinecom wakil wali kota ke...
3,"SURABAYA,BANGSAONLINE.com- Polsek Wonokromo m...",surabayabangsaonlinecom polsek wonokromo mena...
4,"SIDOARJO,BANGSAONLINE.com- Polwan Polresta Sid...",sidoarjobangsaonlinecom polwan polresta sidoar...


## Tokenisasi

In [11]:
import sys

# Perintah untuk menginstal library menggunakan path Python yang sedang aktif
!{sys.executable} -m pip install nltk

Collecting nltk
  Downloading nltk-3.9.2-py3-none-any.whl.metadata (3.2 kB)
Collecting click (from nltk)
  Downloading click-8.3.0-py3-none-any.whl.metadata (2.6 kB)
Collecting joblib (from nltk)
  Using cached joblib-1.5.2-py3-none-any.whl.metadata (5.6 kB)
Collecting regex>=2021.8.3 (from nltk)
  Downloading regex-2025.9.18-cp314-cp314-win_amd64.whl.metadata (41 kB)
Collecting tqdm (from nltk)
  Using cached tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Downloading nltk-3.9.2-py3-none-any.whl (1.5 MB)
   ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
   ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
   ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
   ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
   ------ --------------------------------- 0.3/1.5 MB ? eta -:--:--
   ------ --------------------------------- 0.3/1.5 MB ? eta -:--:--
   ------ --------------------------------- 0.3/1.5 MB ? eta -:--:--
   -----


[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [12]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') 

# Fungsi untuk melakukan tokenisasi
def tokenize_text(text):
    return word_tokenize(text)

# Terapkan tokenisasi ke kolom 'cleaned_isi'
df['tokenized_isi'] = df['cleaned_isi'].apply(tokenize_text)

# Tampilkan DataFrame dengan kolom hasil tokenisasi
display(df[['cleaned_isi', 'tokenized_isi']].head())

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,cleaned_isi,tokenized_isi
0,sidoarjobangsaonlinecom proses pencarian korba...,"[sidoarjobangsaonlinecom, proses, pencarian, k..."
1,probolinggo bangsaonlinecom polres probolinggo...,"[probolinggo, bangsaonlinecom, polres, proboli..."
2,kota kediri bangsaonlinecom wakil wali kota ke...,"[kota, kediri, bangsaonlinecom, wakil, wali, k..."
3,surabayabangsaonlinecom polsek wonokromo mena...,"[surabayabangsaonlinecom, polsek, wonokromo, m..."
4,sidoarjobangsaonlinecom polwan polresta sidoar...,"[sidoarjobangsaonlinecom, polwan, polresta, si..."


## Stopword Removal

In [13]:
from nltk.corpus import stopwords
nltk.download('stopwords')

# Dapatkan Stop Word bahasa Indonesia
list_stopwords = set(stopwords.words('indonesian'))

# Fungsi untuk menghapus stop words
def remove_stopwords(tokens):
    return [word for word in tokens if word not in list_stopwords]

# Terapkan penghapusan Stop Word ke kolom 'tokenized_isi'
df['stopwords_removed_isi'] = df['tokenized_isi'].apply(remove_stopwords)

# Tampilkan DataFrame
display(df[['tokenized_isi', 'stopwords_removed_isi']].head())

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,tokenized_isi,stopwords_removed_isi
0,"[sidoarjobangsaonlinecom, proses, pencarian, k...","[sidoarjobangsaonlinecom, proses, pencarian, k..."
1,"[probolinggo, bangsaonlinecom, polres, proboli...","[probolinggo, bangsaonlinecom, polres, proboli..."
2,"[kota, kediri, bangsaonlinecom, wakil, wali, k...","[kota, kediri, bangsaonlinecom, wakil, wali, k..."
3,"[surabayabangsaonlinecom, polsek, wonokromo, m...","[surabayabangsaonlinecom, polsek, wonokromo, m..."
4,"[sidoarjobangsaonlinecom, polwan, polresta, si...","[sidoarjobangsaonlinecom, polwan, polresta, si..."


## Stemming

In [15]:
!{sys.executable} -m pip install Sastrawi

Collecting Sastrawi
  Using cached Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Using cached Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
Installing collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1



[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [17]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Buat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi untuk melakukan stemming
def stem_tokens(tokens):
    return [stemmer.stem(token) for token in tokens]

# Terapkan stemming ke kolom 'stopwords_removed_isi'
df['stemmed_isi'] = df['stopwords_removed_isi'].apply(stem_tokens)

# Function to find and format stemmed word changes
def get_stemming_changes(original_tokens, stemmed_tokens):
    changes = []
    for original, stemmed in zip(original_tokens, stemmed_tokens):
        if original != stemmed:
            changes.append(f"{original} : {stemmed}")
    return changes

# Dapatkan semua perubahan stemming dari kolom 'stopwords_removed_isi' dan 'stemmed_isi'
all_changes = []
for index, row in df.iterrows():
    all_changes.extend(get_stemming_changes(row['stopwords_removed_isi'], row['stemmed_isi']))

# Dapatkan perubahan unik dan urutkan
unique_changes = sorted(list(set(all_changes)))

# Cetak perubahan unik
print("Kata-kata yang mengalami stemming:")
for change in unique_changes:
    print(change)

# Tampilkan DataFrame
display(df[['stopwords_removed_isi', 'stemmed_isi']].head())

Kata-kata yang mengalami stemming:
_blueprint : blueprint
abahnya : abah
abdian : abdi
abunya : abu
acaranya : acara
acuan : acu
adakah : ada
adiknya : adik
adonan : adon
aduan : adu
agamaku : agama
agamanya : agama
agamis : agam
agensi : agens
agensinya : agens
agresinya : agresi
agunan : agun
agustusan : agustus
aini : ain
airnya : air
ajakan : aja
ajaknya : ajak
ajaran : ajar
ajudannya : ajudan
ajukan : aju
akademiknya : akademik
akhlaknya : akhlak
akibatnya : akibat
akrabilah : akrab
akrabnya : akrab
akreditasinya : akreditasi
aksinya : aksi
aktifkan : aktif
aktingnya : akting
aktivitasnya : aktivitas
aktornya : aktor
akui : aku
akuinya : aku
akuntansiku : akuntansi
akunya : aku
akuratnya : akurat
alaihalmāahtazzat : alaihalm ahtazzat
alaihilażābu : alaihila bu
alamatnya : alamat
alamnya : alam
alasan : alas
alasannya : alas
albumnya : album
alfan : alf
alfi : alf
alghâyah : algh yah
alihi : alih
aliman : alim
aliran : alir
alumninya : alumni
alunan : alun
alā : al
amalan : amal
am

Unnamed: 0,stopwords_removed_isi,stemmed_isi
0,"[sidoarjobangsaonlinecom, proses, pencarian, k...","[sidoarjobangsaonlinecom, proses, cari, korban..."
1,"[probolinggo, bangsaonlinecom, polres, proboli...","[probolinggo, bangsaonlinecom, polres, proboli..."
2,"[kota, kediri, bangsaonlinecom, wakil, wali, k...","[kota, diri, bangsaonlinecom, wakil, wali, kot..."
3,"[surabayabangsaonlinecom, polsek, wonokromo, m...","[surabayabangsaonlinecom, polsek, wonokromo, t..."
4,"[sidoarjobangsaonlinecom, polwan, polresta, si...","[sidoarjobangsaonlinecom, polwan, polresta, si..."


In [18]:
from collections import Counter

# Gabungkan semua token yang bertangkai menjadi satu daftar
all_stemmed_words = [word for tokens in df['stemmed_isi'] for word in tokens]

# Hitung frekuensi setiap kata
word_frequencies = Counter(all_stemmed_words)

# Menampilkan kata-kata yang paling umum dan frekuensinya
print("Top Most Frequent Words:")
for word, frequency in word_frequencies.most_common():
    print(f"{word}: {frequency}")

Top Most Frequent Words:
kiai: 1310
masyarakat: 882
rp: 882
diri: 840
kota: 810
asep: 781
indonesia: 749
bangsaonlinecom: 744
orang: 720
jalan: 697
milik: 651
jawa: 613
kh: 584
sehat: 577
warga: 542
: 537
hadir: 510
timur: 508
pesantren: 493
perintah: 492
hasil: 489
surabaya: 489
desa: 488
ketua: 484
rumah: 483
salah: 480
harap: 467
kuat: 465
harga: 465
langsung: 459
angin: 448
kabupaten: 446
kerja: 444
bangun: 422
daerah: 419
cepat: 414
tingkat: 412
giat: 411
terima: 398
dukung: 395
pimpin: 393
serta: 388
program: 386
dunia: 384
gelar: 377
usaha: 372
pilih: 367
makan: 364
tim: 362
laku: 362
anak: 360
acara: 359
layan: 350
dr: 349
temu: 348
bantu: 339
santri: 336
nasional: 333
prof: 333
arah: 329
wib: 328
kepala: 328
hidup: 326
menteri: 325
bangsa: 317
kenal: 316
kembang: 313
nu: 313
negara: 311
ajar: 307
guru: 307
bentuk: 306
jaga: 306
sesuai: 305
butuh: 301
muhammad: 301
penuh: 298
gus: 295
kali: 294
tanah: 293
buka: 293
didik: 293
hukum: 292
islam: 291
korban: 290
air: 284
camat: 27

In [20]:
# Buat DataFrame baru dengan isi asli, isi stemmed, dan kategori
processed_df = df[['isi_berita', 'stemmed_isi', 'kategori']].copy()

# Ganti nama kolom
processed_df.rename(columns={'stemmed_isi': 'hasil_preprocessing'}, inplace=True)

# Konversi frekuensi kata ke DataFrame
frequency_df = pd.DataFrame.from_dict(word_frequencies, orient='index', columns=['frequency'])
frequency_df.index.name = 'word'
frequency_df.sort_values(by='frequency', ascending=False, inplace=True)

# Simpan ke dua file CSV terpisah
processed_df.to_csv('hasil_preprocessing_berita.csv', index=False, encoding='utf-8')
frequency_df.to_csv('frekuensi_kata_berita.csv', encoding='utf-8')

print("Hasil preprocessing disimpan di 'hasil_preprocessing_berita.csv'")
print("Frekuensi kata disimpan di 'frekuensi_kata_berita.csv'")

Hasil preprocessing disimpan di 'hasil_preprocessing_berita.csv'
Frekuensi kata disimpan di 'frekuensi_kata_berita.csv'


In [21]:
hasil_preprocessing = "hasil_preprocessing_berita.csv"  
df = pd.read_csv(hasil_preprocessing)

# Tampilkan data
df

Unnamed: 0,isi_berita,hasil_preprocessing,kategori
0,"SIDOARJO,BANGSAONLINE.com- Proses pencarian ko...","['sidoarjobangsaonlinecom', 'proses', 'cari', ...",Jatim
1,"PROBOLINGGO, BANGSAONLINE.com- Polres Probolin...","['probolinggo', 'bangsaonlinecom', 'polres', '...",Jatim
2,"KOTA KEDIRI, BANGSAONLINE.com- Wakil Wali Kota...","['kota', 'diri', 'bangsaonlinecom', 'wakil', '...",Jatim
3,"SURABAYA,BANGSAONLINE.com- Polsek Wonokromo m...","['surabayabangsaonlinecom', 'polsek', 'wonokro...",Jatim
4,"SIDOARJO,BANGSAONLINE.com- Polwan Polresta Sid...","['sidoarjobangsaonlinecom', 'polwan', 'polrest...",Jatim
...,...,...,...
920,"SURABAYA,BANGSAONLINE.com-Kebun Binatang Surab...","['surabayabangsaonlinecomkebun', 'binatang', '...",Komunitas dan Lingkungan
921,"PASURUAN, BANGSAONLINE.com– Suasana semarak me...","['pasuruan', 'bangsaonlinecom', 'suasana', 'se...",Komunitas dan Lingkungan
922,"SURABAYA,BANGSAONLINE.com- HRM. Khalilur R. Ab...","['surabayabangsaonlinecom', 'hrm', 'khalilur',...",Komunitas dan Lingkungan
923,"KOTA BATU, BANGSAONLINE.com- Kelompok Kerja Gu...","['kota', 'batu', 'bangsaonlinecom', 'kelompok'...",Komunitas dan Lingkungan


In [14]:
frekuensi_kata = "frekuensi_kata_berita.csv"  
df = pd.read_csv(frekuensi_kata)

# Tampilkan data
df

Unnamed: 0,word,frequency
0,baca,228
1,indonesia,159
2,rumah,158
3,rp,138
4,pro,119
...,...,...
4475,timkompastekno,1
4476,jugahuawei,1
4477,tengahtengah,1
4478,lagipula,1
