# Preprocessing berita

In [1]:
import pandas as pd

# Load data from berita_cnn.csv
df = pd.read_csv('hasil_scraping_berita_bangsaonline.csv')

In [2]:
# Display basic information about the dataset
print("Dataset shape:", df.shape)
df

Dataset shape: (3653, 5)


Unnamed: 0,id_berita,kategori,judul,isi_berita,link
0,153410,Jatim,"Diduga Kasus Korupsi, Kejari Geledah Kantor Pe...","SURABAYA, BANGSAONLINE.com- Kejari Tanjung Per...",https://bangsaonline.com/berita/153410/diduga-...
1,153408,Jatim,Pria asal Surabaya Meninggal Mendadak di Pasar...,"KOTA PASURUAN,BANGSAONLINE.com- Suasana Pasar ...",https://bangsaonline.com/berita/153408/pria-as...
2,153407,Jatim,Polres Tuban Kembalikan BB Motor hingga Handph...,"TUBAN, BANGSAONLINE.com- Satreskrim Polres Tub...",https://bangsaonline.com/berita/153407/polres-...
3,153406,Jatim,TMMD ke-126 Sidoarjo Bangun Rumah Warga Guna W...,"SIDOARJO,BANGSAONLINE.com- Program TNI Manungg...",https://bangsaonline.com/berita/153406/tmmd-ke...
4,153405,Jatim,"Dana Transfer Dipangkas Pusat, Bupati Gresik S...","GRESIK,BANGSAONLINE.com- Bupati Gresik, Fandi ...",https://bangsaonline.com/berita/153405/dana-tr...
...,...,...,...,...,...
3648,147840,Komunitas dan Lingkungan,"Ziarah ke Makam Wali Kota Surabaya Pertama, FJ...","SURABAYA, BANGSAONLINE.com- Hari ini Kota Sura...",https://bangsaonline.com/berita/147840/ziarah-...
3649,147677,Komunitas dan Lingkungan,"Berdayakan Masyarakat Pesisir, SNNU Jatim Gand...","JEMBER, BANGSAONLINE.com- Serikat Nelayan Nahd...",https://bangsaonline.com/berita/147677/berdaya...
3650,147627,Komunitas dan Lingkungan,"Gandeng Pemdes Sidoraharjo Gresik, YLBH FT Bek...","GRESIK, BANGSAONLINE.com- Yayasan Lembaga Bant...",https://bangsaonline.com/berita/147627/gandeng...
3651,147590,Komunitas dan Lingkungan,Kader Asal Pamekasan ini Diusung Jadi Calon Ke...,"PAMEKASAN, BANGSAONLINE.com- Kader dari Pameka...",https://bangsaonline.com/berita/147590/kader-a...


In [3]:
print("\nDataset info:")
df.info()


Dataset info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3653 entries, 0 to 3652
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id_berita   3653 non-null   int64 
 1   kategori    3653 non-null   object
 2   judul       3653 non-null   object
 3   isi_berita  3653 non-null   object
 4   link        3653 non-null   object
dtypes: int64(1), object(4)
memory usage: 142.8+ KB


#   PREPROCESSING

In [4]:
# Tampilkan data "isi"
df['isi_berita']

0       SURABAYA, BANGSAONLINE.com- Kejari Tanjung Per...
1       KOTA PASURUAN,BANGSAONLINE.com- Suasana Pasar ...
2       TUBAN, BANGSAONLINE.com- Satreskrim Polres Tub...
3       SIDOARJO,BANGSAONLINE.com- Program TNI Manungg...
4       GRESIK,BANGSAONLINE.com- Bupati Gresik, Fandi ...
                              ...                        
3648    SURABAYA, BANGSAONLINE.com- Hari ini Kota Sura...
3649    JEMBER, BANGSAONLINE.com- Serikat Nelayan Nahd...
3650    GRESIK, BANGSAONLINE.com- Yayasan Lembaga Bant...
3651    PAMEKASAN, BANGSAONLINE.com- Kader dari Pameka...
3652    KOTA PASURUAN, BANGSAONLINE.com- Wali Kota Pas...
Name: isi_berita, Length: 3653, dtype: object

## Hapus Missing Value dan Data Duplicat

In [5]:
# Hapus baris dengan Missing Value di 'isi'
df.dropna(subset=['isi_berita'], inplace=True)

# Hapus data duplikat
df.drop_duplicates(inplace=True)

## Test Cleaning

In [6]:
import re

# Fungsi untuk membersihkan teks
def clean_text(text):
    # Pastikan input adalah string
    if not isinstance(text, str):
        return ""
        
    text = text.lower() # 1. Ubah ke huruf kecil
    
    # 2. Ganti karakter non-breaking space (U+00A0) dengan spasi biasa
    text = text.replace(u'\xa0', u' ')
    
    # 3. Hapus sumber berita 
    # Pola: NAMA_KOTA,BANGSAONLINE.COM-
    # Menangkap (NAMA_KOTA,) lalu menghapus sisanya
    # Pola diubah menjadi [\w\s]+ untuk menangkap kota multi-kata (seperti "kota pasuruan")
    text = re.sub(r'(^[\w\s]+,\s*)bangsaonline\.com[–-]?\s*', r'\1', text)
    
    # 4. Ganti semua karakter yang BUKAN huruf, angka, atau spasi DENGAN SPASI
    text = re.sub(r'[^\w\s]', ' ', text)
    
    # 5. Hapus semua angka
    text = re.sub(r'\d+', '', text)
    
    # 6. Ganti spasi ganda/lebih menjadi satu spasi & hapus spasi di awal/akhir
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Terapkan pembersihan ke kolom 'isi'
df['cleaned_isi'] = df['isi_berita'].apply(clean_text)

# Tampilkan DataFrame
display(df[['isi_berita', 'cleaned_isi']].head())

Unnamed: 0,isi_berita,cleaned_isi
0,"SURABAYA, BANGSAONLINE.com- Kejari Tanjung Per...",surabaya kejari tanjung perak surabaya melakuk...
1,"KOTA PASURUAN,BANGSAONLINE.com- Suasana Pasar ...",kota pasuruan suasana pasar kebonagung kota pa...
2,"TUBAN, BANGSAONLINE.com- Satreskrim Polres Tub...",tuban satreskrim polres tuban mengembalikan ba...
3,"SIDOARJO,BANGSAONLINE.com- Program TNI Manungg...",sidoarjo program tni manunggal membangun desa ...
4,"GRESIK,BANGSAONLINE.com- Bupati Gresik, Fandi ...",gresik bupati gresik fandi akhmad yani menangg...


## Tokenisasi

In [7]:
import sys

# Perintah untuk menginstal library menggunakan path Python yang sedang aktif
!{sys.executable} -m pip install nltk




[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: C:\laragon\bin\python\python-3.10\python.exe -m pip install --upgrade pip


In [8]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') 

# Fungsi untuk melakukan tokenisasi
def tokenize_text(text):
    return word_tokenize(text)

# Terapkan tokenisasi ke kolom 'cleaned_isi'
df['tokenized_isi'] = df['cleaned_isi'].apply(tokenize_text)

# Tampilkan DataFrame dengan kolom hasil tokenisasi
display(df[['cleaned_isi', 'tokenized_isi']].head())

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,cleaned_isi,tokenized_isi
0,surabaya kejari tanjung perak surabaya melakuk...,"[surabaya, kejari, tanjung, perak, surabaya, m..."
1,kota pasuruan suasana pasar kebonagung kota pa...,"[kota, pasuruan, suasana, pasar, kebonagung, k..."
2,tuban satreskrim polres tuban mengembalikan ba...,"[tuban, satreskrim, polres, tuban, mengembalik..."
3,sidoarjo program tni manunggal membangun desa ...,"[sidoarjo, program, tni, manunggal, membangun,..."
4,gresik bupati gresik fandi akhmad yani menangg...,"[gresik, bupati, gresik, fandi, akhmad, yani, ..."


## Stopword Removal

In [9]:
from nltk.corpus import stopwords
nltk.download('stopwords')

# Dapatkan Stop Word bahasa Indonesia
list_stopwords = set(stopwords.words('indonesian'))

# Fungsi untuk menghapus stop words
def remove_stopwords(tokens):
    return [word for word in tokens if word not in list_stopwords]

# Terapkan penghapusan Stop Word ke kolom 'tokenized_isi'
df['stopwords_removed_isi'] = df['tokenized_isi'].apply(remove_stopwords)

# Tampilkan DataFrame
display(df[['tokenized_isi', 'stopwords_removed_isi']].head())

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,tokenized_isi,stopwords_removed_isi
0,"[surabaya, kejari, tanjung, perak, surabaya, m...","[surabaya, kejari, tanjung, perak, surabaya, p..."
1,"[kota, pasuruan, suasana, pasar, kebonagung, k...","[kota, pasuruan, suasana, pasar, kebonagung, k..."
2,"[tuban, satreskrim, polres, tuban, mengembalik...","[tuban, satreskrim, polres, tuban, mengembalik..."
3,"[sidoarjo, program, tni, manunggal, membangun,...","[sidoarjo, program, tni, manunggal, membangun,..."
4,"[gresik, bupati, gresik, fandi, akhmad, yani, ...","[gresik, bupati, gresik, fandi, akhmad, yani, ..."


In [10]:
from collections import Counter

# Gabungkan semua token yang bertangkai menjadi satu daftar
all_stemmed_words = [word for tokens in df['stopwords_removed_isi'] for word in tokens]

# Hitung frekuensi setiap kata
word_frequencies = Counter(all_stemmed_words)

# Menampilkan kata-kata yang paling umum dan frekuensinya
print("Top Most Frequent Words:")
for word, frequency in word_frequencies.most_common():
    print(f"{word}: {frequency}")

Top Most Frequent Words:
rp: 3927
kiai: 3637
kota: 3546
masyarakat: 3380
orang: 3185
indonesia: 2823
surabaya: 2548
anak: 2458
jawa: 2365
al: 2235
timur: 2102
asep: 2049
kediri: 1915
kabupaten: 1823
kh: 1812
ketua: 1785
warga: 1781
salah: 1772
angin: 1766
s: 1750
program: 1743
memiliki: 1740
kesehatan: 1722
pesantren: 1717
desa: 1698
m: 1650
kegiatan: 1558
daerah: 1523
langsung: 1509
jatim: 1457
tim: 1397
bangsaonline: 1397
rumah: 1389
pemerintah: 1380
peserta: 1348
wib: 1329
harga: 1319
dunia: 1280
khofifah: 1260
gus: 1250
korban: 1223
dr: 1217
a: 1217
nasional: 1210
negara: 1187
acara: 1185
kepala: 1181
jalan: 1168
gresik: 1098
kali: 1093
air: 1067
com: 1034
bangsa: 1024
kecamatan: 1019
sosial: 1014
kerja: 1007
c: 1005
hasil: 988
pendidikan: 988
santri: 984
batu: 968
arah: 965
cuaca: 964
kecepatan: 963
nu: 956
gram: 955
suhu: 949
mar: 935
pelaku: 932
keluarga: 929
menjaga: 928
allah: 924
sesuai: 910
sekolah: 894
proses: 884
pasuruan: 879
berharap: 878
ulama: 862
islam: 855
wilayah: 8

lowongan: 8
tengger: 8
pga: 8
menyadarkan: 8
hafalan: 8
pprg: 8
lettu: 8
nyamuk: 8
folklore: 8
ksatria: 8
tanahku: 8
kontrasepsi: 8
peterongan: 8
innallāha: 8
ā: 8
pedih: 8
kemewahan: 8
siksaan: 8
tekun: 8
nisab: 8
muhibbin: 8
romo: 8
jordan: 8
canga: 8
bihī: 8
walid: 8
diciptakan: 8
لا: 8
minan: 8
alawy: 8
dibahasakan: 8
jeddah: 8
dun: 8
seksama: 8
kegelapan: 8
jibril: 8
ann: 8
olok: 8
nonmuslim: 8
dikehendaki: 8
sejenisnya: 8
otentik: 8
sabab: 8
malaya: 8
dzurriyah: 8
annahū: 8
kakeknya: 8
menggugurkan: 8
tarjih: 8
penyembelihan: 8
tetumbuhan: 8
enjoy: 8
wahn: 8
piranti: 8
aqiqah: 8
dzikra: 8
nuthfah: 8
menggumpal: 8
mengeras: 8
ingkar: 8
standard: 8
samawi: 8
fox: 8
tahta: 8
ihram: 8
makki: 8
menyengsarakan: 8
tiara: 8
sindiran: 8
kunto: 8
hijrah: 8
qunut: 8
jilani: 8
badannya: 8
diganggu: 8
tenggorokan: 8
alfa: 8
laqad: 8
zabur: 8
ābidīn: 8
ngerti: 8
yerusalem: 8
uea: 8
waalaikumsalam: 8
ulangi: 8
pencerahannya: 8
makmum: 8
mengembang: 8
sahih: 8
bersandar: 8
tabrani: 8
meriwayatka

In [11]:
# Buat DataFrame baru dengan isi asli, isi stemmed, dan kategori
processed_df = df[['isi_berita', 'stopwords_removed_isi', 'kategori']].copy()

# Ganti nama kolom
processed_df.rename(columns={'stopwords_removed_isi': 'hasil_preprocessing'}, inplace=True)

# Konversi frekuensi kata ke DataFrame
frequency_df = pd.DataFrame.from_dict(word_frequencies, orient='index', columns=['frequency'])
frequency_df.index.name = 'word'
frequency_df.sort_values(by='frequency', ascending=False, inplace=True)

# Simpan ke dua file CSV terpisah
processed_df.to_csv('hasil_preprocessing_beritaWithOutStemming.csv', index=False, encoding='utf-8')
frequency_df.to_csv('frekuensi_kata_beritaWithOutStemming.csv', encoding='utf-8')

print("Hasil preprocessing disimpan di 'hasil_preprocessing_beritaWithOutStemming.csv'")
print("Frekuensi kata disimpan di 'frekuensi_kata_beritaWithOutStemming.csv'")

Hasil preprocessing disimpan di 'hasil_preprocessing_beritaWithOutStemming.csv'
Frekuensi kata disimpan di 'frekuensi_kata_beritaWithOutStemming.csv'


In [12]:
hasil_preprocessing = "hasil_preprocessing_beritaWithOutStemming.csv"  
df = pd.read_csv(hasil_preprocessing)

# Tampilkan data
df

Unnamed: 0,isi_berita,hasil_preprocessing,kategori
0,"SURABAYA, BANGSAONLINE.com- Kejari Tanjung Per...","['surabaya', 'kejari', 'tanjung', 'perak', 'su...",Jatim
1,"KOTA PASURUAN,BANGSAONLINE.com- Suasana Pasar ...","['kota', 'pasuruan', 'suasana', 'pasar', 'kebo...",Jatim
2,"TUBAN, BANGSAONLINE.com- Satreskrim Polres Tub...","['tuban', 'satreskrim', 'polres', 'tuban', 'me...",Jatim
3,"SIDOARJO,BANGSAONLINE.com- Program TNI Manungg...","['sidoarjo', 'program', 'tni', 'manunggal', 'm...",Jatim
4,"GRESIK,BANGSAONLINE.com- Bupati Gresik, Fandi ...","['gresik', 'bupati', 'gresik', 'fandi', 'akhma...",Jatim
...,...,...,...
3648,"SURABAYA, BANGSAONLINE.com- Hari ini Kota Sura...","['surabaya', 'kota', 'surabaya', 'genap', 'ber...",Komunitas dan Lingkungan
3649,"JEMBER, BANGSAONLINE.com- Serikat Nelayan Nahd...","['jember', 'serikat', 'nelayan', 'nahdlatul', ...",Komunitas dan Lingkungan
3650,"GRESIK, BANGSAONLINE.com- Yayasan Lembaga Bant...","['gresik', 'yayasan', 'lembaga', 'bantuan', 'h...",Komunitas dan Lingkungan
3651,"PAMEKASAN, BANGSAONLINE.com- Kader dari Pameka...","['pamekasan', 'kader', 'pamekasan', 'moh', 'sa...",Komunitas dan Lingkungan


In [13]:
frekuensi_kata = "frekuensi_kata_beritaWithOutStemming.csv"  
df = pd.read_csv(frekuensi_kata)

# Tampilkan data
df

Unnamed: 0,word,frequency
0,rp,3927
1,kiai,3637
2,kota,3546
3,masyarakat,3380
4,orang,3185
...,...,...
48529,wakayfa,1
48530,oaala,1
48531,mengikutimu,1
48532,rusydaan,1
