# Preprocessing berita

In [1]:
import pandas as pd

# Load data from berita_cnn.csv
df = pd.read_csv('hasil_scraping_berita_bangsaonline.csv')

In [2]:
# Display basic information about the dataset
print("Dataset shape:", df.shape)
df

Dataset shape: (3653, 5)


Unnamed: 0,id_berita,kategori,judul,isi_berita,link
0,153410,Jatim,"Diduga Kasus Korupsi, Kejari Geledah Kantor Pe...","SURABAYA, BANGSAONLINE.com- Kejari Tanjung Per...",https://bangsaonline.com/berita/153410/diduga-...
1,153408,Jatim,Pria asal Surabaya Meninggal Mendadak di Pasar...,"KOTA PASURUAN,BANGSAONLINE.com- Suasana Pasar ...",https://bangsaonline.com/berita/153408/pria-as...
2,153407,Jatim,Polres Tuban Kembalikan BB Motor hingga Handph...,"TUBAN, BANGSAONLINE.com- Satreskrim Polres Tub...",https://bangsaonline.com/berita/153407/polres-...
3,153406,Jatim,TMMD ke-126 Sidoarjo Bangun Rumah Warga Guna W...,"SIDOARJO,BANGSAONLINE.com- Program TNI Manungg...",https://bangsaonline.com/berita/153406/tmmd-ke...
4,153405,Jatim,"Dana Transfer Dipangkas Pusat, Bupati Gresik S...","GRESIK,BANGSAONLINE.com- Bupati Gresik, Fandi ...",https://bangsaonline.com/berita/153405/dana-tr...
...,...,...,...,...,...
3648,147840,Komunitas dan Lingkungan,"Ziarah ke Makam Wali Kota Surabaya Pertama, FJ...","SURABAYA, BANGSAONLINE.com- Hari ini Kota Sura...",https://bangsaonline.com/berita/147840/ziarah-...
3649,147677,Komunitas dan Lingkungan,"Berdayakan Masyarakat Pesisir, SNNU Jatim Gand...","JEMBER, BANGSAONLINE.com- Serikat Nelayan Nahd...",https://bangsaonline.com/berita/147677/berdaya...
3650,147627,Komunitas dan Lingkungan,"Gandeng Pemdes Sidoraharjo Gresik, YLBH FT Bek...","GRESIK, BANGSAONLINE.com- Yayasan Lembaga Bant...",https://bangsaonline.com/berita/147627/gandeng...
3651,147590,Komunitas dan Lingkungan,Kader Asal Pamekasan ini Diusung Jadi Calon Ke...,"PAMEKASAN, BANGSAONLINE.com- Kader dari Pameka...",https://bangsaonline.com/berita/147590/kader-a...


In [3]:
print("\nDataset info:")
df.info()


Dataset info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3653 entries, 0 to 3652
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id_berita   3653 non-null   int64 
 1   kategori    3653 non-null   object
 2   judul       3653 non-null   object
 3   isi_berita  3653 non-null   object
 4   link        3653 non-null   object
dtypes: int64(1), object(4)
memory usage: 142.8+ KB


#   PREPROCESSING

In [4]:
# Tampilkan data "isi"
df['isi_berita']

0       SURABAYA, BANGSAONLINE.com- Kejari Tanjung Per...
1       KOTA PASURUAN,BANGSAONLINE.com- Suasana Pasar ...
2       TUBAN, BANGSAONLINE.com- Satreskrim Polres Tub...
3       SIDOARJO,BANGSAONLINE.com- Program TNI Manungg...
4       GRESIK,BANGSAONLINE.com- Bupati Gresik, Fandi ...
                              ...                        
3648    SURABAYA, BANGSAONLINE.com- Hari ini Kota Sura...
3649    JEMBER, BANGSAONLINE.com- Serikat Nelayan Nahd...
3650    GRESIK, BANGSAONLINE.com- Yayasan Lembaga Bant...
3651    PAMEKASAN, BANGSAONLINE.com- Kader dari Pameka...
3652    KOTA PASURUAN, BANGSAONLINE.com- Wali Kota Pas...
Name: isi_berita, Length: 3653, dtype: object

## Hapus Missing Value dan Data Duplicat

In [5]:
# Hapus baris dengan Missing Value di 'isi'
df.dropna(subset=['isi_berita'], inplace=True)

# Hapus data duplikat
df.drop_duplicates(inplace=True)

## Test Cleaning

In [6]:
import re

# Fungsi untuk membersihkan teks
def clean_text(text):
    # Pastikan input adalah string
    if not isinstance(text, str):
        return ""
        
    text = text.lower() # 1. Ubah ke huruf kecil
    
    # 2. Ganti karakter non-breaking space (U+00A0) dengan spasi biasa
    text = text.replace(u'\xa0', u' ')
    
    # 3. Hapus awalan kota dan sumber berita 
    # Pola: NAMA_KOTA,BANGSAONLINE.COM-
    text = re.sub(r'^\w+\s*,\s*bangsaonline\.com[–-]?\s*', '', text)
    
    # 4. Hapus semua karakter yang BUKAN huruf, angka, atau spasi
    text = re.sub(r'[^\w\s]', '', text)
    
    # 5. Hapus semua angka
    text = re.sub(r'\d+', '', text)
    
    # 6. Ganti spasi ganda/lebih menjadi satu spasi & hapus spasi di awal/akhir
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Terapkan pembersihan ke kolom 'isi'
df['cleaned_isi'] = df['isi_berita'].apply(clean_text)

# Tampilkan DataFrame
display(df[['isi_berita', 'cleaned_isi']].head())

Unnamed: 0,isi_berita,cleaned_isi
0,"SURABAYA, BANGSAONLINE.com- Kejari Tanjung Per...",kejari tanjung perak surabaya melakukan pengge...
1,"KOTA PASURUAN,BANGSAONLINE.com- Suasana Pasar ...",kota pasuruanbangsaonlinecom suasana pasar keb...
2,"TUBAN, BANGSAONLINE.com- Satreskrim Polres Tub...",satreskrim polres tuban mengembalikan barang b...
3,"SIDOARJO,BANGSAONLINE.com- Program TNI Manungg...",program tni manunggal membangun desa tmmd ke t...
4,"GRESIK,BANGSAONLINE.com- Bupati Gresik, Fandi ...",bupati gresik fandi akhmad yani menanggapi wac...


## Tokenisasi

In [7]:
import sys

# Perintah untuk menginstal library menggunakan path Python yang sedang aktif
!{sys.executable} -m pip install nltk



In [8]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') 

# Fungsi untuk melakukan tokenisasi
def tokenize_text(text):
    return word_tokenize(text)

# Terapkan tokenisasi ke kolom 'cleaned_isi'
df['tokenized_isi'] = df['cleaned_isi'].apply(tokenize_text)

# Tampilkan DataFrame dengan kolom hasil tokenisasi
display(df[['cleaned_isi', 'tokenized_isi']].head())

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,cleaned_isi,tokenized_isi
0,kejari tanjung perak surabaya melakukan pengge...,"[kejari, tanjung, perak, surabaya, melakukan, ..."
1,kota pasuruanbangsaonlinecom suasana pasar keb...,"[kota, pasuruanbangsaonlinecom, suasana, pasar..."
2,satreskrim polres tuban mengembalikan barang b...,"[satreskrim, polres, tuban, mengembalikan, bar..."
3,program tni manunggal membangun desa tmmd ke t...,"[program, tni, manunggal, membangun, desa, tmm..."
4,bupati gresik fandi akhmad yani menanggapi wac...,"[bupati, gresik, fandi, akhmad, yani, menangga..."


## Stopword Removal

In [9]:
from nltk.corpus import stopwords
nltk.download('stopwords')

# Dapatkan Stop Word bahasa Indonesia
list_stopwords = set(stopwords.words('indonesian'))

# Fungsi untuk menghapus stop words
def remove_stopwords(tokens):
    return [word for word in tokens if word not in list_stopwords]

# Terapkan penghapusan Stop Word ke kolom 'tokenized_isi'
df['stopwords_removed_isi'] = df['tokenized_isi'].apply(remove_stopwords)

# Tampilkan DataFrame
display(df[['tokenized_isi', 'stopwords_removed_isi']].head())

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,tokenized_isi,stopwords_removed_isi
0,"[kejari, tanjung, perak, surabaya, melakukan, ...","[kejari, tanjung, perak, surabaya, penggeledah..."
1,"[kota, pasuruanbangsaonlinecom, suasana, pasar...","[kota, pasuruanbangsaonlinecom, suasana, pasar..."
2,"[satreskrim, polres, tuban, mengembalikan, bar...","[satreskrim, polres, tuban, mengembalikan, bar..."
3,"[program, tni, manunggal, membangun, desa, tmm...","[program, tni, manunggal, membangun, desa, tmm..."
4,"[bupati, gresik, fandi, akhmad, yani, menangga...","[bupati, gresik, fandi, akhmad, yani, menangga..."


## Stemming

In [10]:
!{sys.executable} -m pip install Sastrawi



In [11]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Buat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi untuk melakukan stemming
def stem_tokens(tokens):
    return [stemmer.stem(token) for token in tokens]

# Terapkan stemming ke kolom 'stopwords_removed_isi'
df['stemmed_isi'] = df['stopwords_removed_isi'].apply(stem_tokens)

# Function to find and format stemmed word changes
def get_stemming_changes(original_tokens, stemmed_tokens):
    changes = []
    for original, stemmed in zip(original_tokens, stemmed_tokens):
        if original != stemmed:
            changes.append(f"{original} : {stemmed}")
    return changes

# Dapatkan semua perubahan stemming dari kolom 'stopwords_removed_isi' dan 'stemmed_isi'
all_changes = []
for index, row in df.iterrows():
    all_changes.extend(get_stemming_changes(row['stopwords_removed_isi'], row['stemmed_isi']))

# Dapatkan perubahan unik dan urutkan
unique_changes = sorted(list(set(all_changes)))

# Cetak perubahan unik
print("Kata-kata yang mengalami stemming:")
for change in unique_changes:
    print(change)

# Tampilkan DataFrame
display(df[['stopwords_removed_isi', 'stemmed_isi']].head())

KeyboardInterrupt: 

In [12]:
from collections import Counter

# Gabungkan semua token yang bertangkai menjadi satu daftar
all_stemmed_words = [word for tokens in df['stemmed_isi'] for word in tokens]

# Hitung frekuensi setiap kata
word_frequencies = Counter(all_stemmed_words)

# Menampilkan kata-kata yang paling umum dan frekuensinya
print("Top Most Frequent Words:")
for word, frequency in word_frequencies.most_common():
    print(f"{word}: {frequency}")

Top Most Frequent Words:
rp: 3763
kiai: 3592
masyarakat: 3456
kota: 3435
indonesia: 2806
orang: 2741
jalan: 2705
milik: 2608
diri: 2534
jawa: 2322
sehat: 2274
hasil: 2194
timur: 2098
asep: 2034
harga: 1980
salah: 1961
harap: 1877
surabaya: 1872
tingkat: 1835
kh: 1833
hadir: 1832
warga: 1811
ketua: 1795
serta: 1768
angin: 1768
kabupaten: 1743
pesantren: 1709
perintah: 1706
bangun: 1653
desa: 1647
program: 1646
cepat: 1638
kerja: 1634
giat: 1607
rumah: 1599
kuat: 1579
langsung: 1569
terima: 1548
daerah: 1518
laku: 1497
anak: 1479
layan: 1452
jatim: 1440
tim: 1405
usaha: 1351
gelar: 1348
bantu: 1320
dukung: 1318
dunia: 1316
temu: 1304
wib: 1292
korban: 1280
hidup: 1234
gus: 1233
khofifah: 1232
jaga: 1216
kembang: 1213
dr: 1210
makan: 1207
arah: 1205
nasional: 1201
acara: 1200
: 1194
ajar: 1187
pimpin: 1186
nama: 1183
kepala: 1178
butuh: 1172
didik: 1163
kenal: 1130
pilih: 1110
air: 1109
kali: 1098
masuk: 1096
bangsa: 1086
camat: 1072
sesuai: 1062
buka: 1056
negara: 1049
manfaat: 1047
bang

In [13]:
# Buat DataFrame baru dengan isi asli, isi stemmed, dan kategori
processed_df = df[['isi_berita', 'stemmed_isi', 'kategori']].copy()

# Ganti nama kolom
processed_df.rename(columns={'stemmed_isi': 'hasil_preprocessing'}, inplace=True)

# Konversi frekuensi kata ke DataFrame
frequency_df = pd.DataFrame.from_dict(word_frequencies, orient='index', columns=['frequency'])
frequency_df.index.name = 'word'
frequency_df.sort_values(by='frequency', ascending=False, inplace=True)

# Simpan ke dua file CSV terpisah
processed_df.to_csv('hasil_preprocessing_berita.csv', index=False, encoding='utf-8')
frequency_df.to_csv('frekuensi_kata_berita.csv', encoding='utf-8')

print("Hasil preprocessing disimpan di 'hasil_preprocessing_berita.csv'")
print("Frekuensi kata disimpan di 'frekuensi_kata_berita.csv'")

Hasil preprocessing disimpan di 'hasil_preprocessing_berita.csv'
Frekuensi kata disimpan di 'frekuensi_kata_berita.csv'


In [14]:
hasil_preprocessing = "hasil_preprocessing_berita.csv"  
df = pd.read_csv(hasil_preprocessing)

# Tampilkan data
df

Unnamed: 0,isi_berita,hasil_preprocessing,kategori
0,"SURABAYA, BANGSAONLINE.com- Kejari Tanjung Per...","['kejar', 'tanjung', 'perak', 'surabaya', 'gel...",Jatim
1,"KOTA PASURUAN,BANGSAONLINE.com- Suasana Pasar ...","['kota', 'pasuruanbangsaonlinecom', 'suasana',...",Jatim
2,"TUBAN, BANGSAONLINE.com- Satreskrim Polres Tub...","['satreskrim', 'polres', 'tuban', 'kembali', '...",Jatim
3,"SIDOARJO,BANGSAONLINE.com- Program TNI Manungg...","['program', 'tni', 'manunggal', 'bangun', 'des...",Jatim
4,"GRESIK,BANGSAONLINE.com- Bupati Gresik, Fandi ...","['bupati', 'gresik', 'fandi', 'akhmad', 'yani'...",Jatim
...,...,...,...
3648,"SURABAYA, BANGSAONLINE.com- Hari ini Kota Sura...","['kota', 'surabaya', 'genap', 'usia', 'riah', ...",Komunitas dan Lingkungan
3649,"JEMBER, BANGSAONLINE.com- Serikat Nelayan Nahd...","['serikat', 'nelayan', 'nahdlatul', 'ulama', '...",Komunitas dan Lingkungan
3650,"GRESIK, BANGSAONLINE.com- Yayasan Lembaga Bant...","['yayasan', 'lembaga', 'bantu', 'hukum', 'faja...",Komunitas dan Lingkungan
3651,"PAMEKASAN, BANGSAONLINE.com- Kader dari Pameka...","['kader', 'pamekasan', 'moh', 'sai', 'yusuf', ...",Komunitas dan Lingkungan


In [15]:
frekuensi_kata = "frekuensi_kata_berita.csv"  
df = pd.read_csv(frekuensi_kata)

# Tampilkan data
df

Unnamed: 0,word,frequency
0,rp,3763
1,kiai,3592
2,masyarakat,3456
3,kota,3435
4,indonesia,2806
...,...,...
41175,diganderungi,1
41176,pklk,1
41177,ima,1
41178,menanttu,1
