# Preprocessing berita

In [1]:
import pandas as pd

# Load data from berita_cnn.csv
df = pd.read_csv('Berita.csv')

In [2]:
# Display basic information about the dataset
print("Dataset shape:", df.shape)
df

Dataset shape: (1500, 6)


Unnamed: 0,No,judul,berita,tanggal,kategori,link
0,1,Airlangga Harap Kenaikan UMP Tingkatkan Daya B...,Menteri Koordinator (Menko) Bidang Perekonomia...,"Minggu, 01 Des 2024 23:40 WIB",Ekonomi,https://www.cnnindonesia.com/ekonomi/202412012...
1,2,PT SIER Beri Penghargaan untuk 50 Tenant Terba...,"Dalam rangka memeriahkan hari jadi ke-50, PT S...","Minggu, 01 Des 2024 20:45 WIB",Ekonomi,https://www.cnnindonesia.com/ekonomi/202412012...
2,3,Prabowo Bakal Bentuk Kementerian Penerimaan Ne...,Wacana Presiden Prabowo Subianto akan membentu...,"Minggu, 01 Des 2024 19:40 WIB",Ekonomi,https://www.cnnindonesia.com/ekonomi/202412011...
3,4,Sinergi Kemenag & BPJS Ketenagakerjaan Lindung...,BPJS Ketenagakerjaan dan Kementerian Agama (Ke...,"Minggu, 01 Des 2024 19:03 WIB",Ekonomi,https://www.cnnindonesia.com/ekonomi/202412011...
4,5,Pemerintah Segera Bentuk Satgas PHK Usai Tetap...,Pemerintah akan segera membentuk Satuan Tugas ...,"Minggu, 01 Des 2024 19:00 WIB",Ekonomi,https://www.cnnindonesia.com/ekonomi/202412011...
...,...,...,...,...,...,...
1495,1496,Laporan Sebab Tabrakan Pesawat-Black Hawk Dita...,Anggota Dewan Keselamatan Transportasi Nasiona...,"Jumat, 31 Jan 2025 04:40 WIB",Internasional,https://www.cnnindonesia.com/internasional/202...
1496,1497,"Israel Bebaskan 110 Sandera Palestina, Diantar...",Israel telah membebaskan 110 tahanan Palestina...,"Jumat, 31 Jan 2025 03:01 WIB",Internasional,https://www.cnnindonesia.com/internasional/202...
1497,1498,Hamas Konfirmasi Kematian Komandan Al Qassam M...,Hamas mengonfirmasi kematian kepala militernya...,"Jumat, 31 Jan 2025 02:30 WIB",Internasional,https://www.cnnindonesia.com/internasional/202...
1498,1499,Black Box American Airlines Ditemukan Usai Tab...,Tim penyelam diduga menemukan satu dari dua bl...,"Jumat, 31 Jan 2025 01:00 WIB",Internasional,https://www.cnnindonesia.com/internasional/202...


In [3]:
print("\nDataset info:")
df.info()


Dataset info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500 entries, 0 to 1499
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   No        1500 non-null   int64 
 1   judul     1500 non-null   object
 2   berita    1500 non-null   object
 3   tanggal   1500 non-null   object
 4   kategori  1500 non-null   object
 5   link      1500 non-null   object
dtypes: int64(1), object(5)
memory usage: 70.4+ KB


#   PREPROCESSING

In [4]:
# Tampilkan data "isi"
df['berita']

0       Menteri Koordinator (Menko) Bidang Perekonomia...
1       Dalam rangka memeriahkan hari jadi ke-50, PT S...
2       Wacana Presiden Prabowo Subianto akan membentu...
3       BPJS Ketenagakerjaan dan Kementerian Agama (Ke...
4       Pemerintah akan segera membentuk Satuan Tugas ...
                              ...                        
1495    Anggota Dewan Keselamatan Transportasi Nasiona...
1496    Israel telah membebaskan 110 tahanan Palestina...
1497    Hamas mengonfirmasi kematian kepala militernya...
1498    Tim penyelam diduga menemukan satu dari dua bl...
1499    Presiden AS Donald Trump menyalahkan pemerinta...
Name: berita, Length: 1500, dtype: object

## Hapus Missing Value dan Data Duplicat

In [5]:
# Hapus baris dengan Missing Value di 'berita'
df.dropna(subset=['berita'], inplace=True)

# Hapus data duplikat
df.drop_duplicates(inplace=True)

## Test Cleaning

In [6]:
import re

# Fungsi untuk membersihkan teks
def clean_text(text):
    # Pastikan input adalah string
    if not isinstance(text, str):
        return ""
        
    text = text.lower() # 1. Ubah ke huruf kecil
    
    # 2. Ganti karakter non-breaking space (U+00A0) dengan spasi biasa
    text = text.replace(u'\xa0', u' ')
    
    # 3. Hapus awalan kota dan sumber berita 
    # Pola: NAMA_KOTA,BANGSAONLINE.COM-
    text = re.sub(r'^\w+\s*,\s*bangsaonline\.com[–-]?\s*', '', text)
    
    # 4. Hapus semua karakter yang BUKAN huruf, angka, atau spasi
    text = re.sub(r'[^\w\s]', '', text)
    
    # 5. Hapus semua angka
    text = re.sub(r'\d+', '', text)
    
    # 6. Ganti spasi ganda/lebih menjadi satu spasi & hapus spasi di awal/akhir
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Terapkan pembersihan ke kolom 'isi'
df['cleaned_isi'] = df['berita'].apply(clean_text)

# Tampilkan DataFrame
display(df[['berita', 'cleaned_isi']].head())

Unnamed: 0,berita,cleaned_isi
0,Menteri Koordinator (Menko) Bidang Perekonomia...,menteri koordinator menko bidang perekonomian ...
1,"Dalam rangka memeriahkan hari jadi ke-50, PT S...",dalam rangka memeriahkan hari jadi ke pt surab...
2,Wacana Presiden Prabowo Subianto akan membentu...,wacana presiden prabowo subianto akan membentu...
3,BPJS Ketenagakerjaan dan Kementerian Agama (Ke...,bpjs ketenagakerjaan dan kementerian agama kem...
4,Pemerintah akan segera membentuk Satuan Tugas ...,pemerintah akan segera membentuk satuan tugas ...


## Tokenisasi

In [7]:
import sys

# Perintah untuk menginstal library menggunakan path Python yang sedang aktif
!{sys.executable} -m pip install nltk




[notice] A new release of pip is available: 23.2.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [8]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') 

# Fungsi untuk melakukan tokenisasi
def tokenize_text(text):
    return word_tokenize(text)

# Terapkan tokenisasi ke kolom 'cleaned_isi'
df['tokenized_isi'] = df['cleaned_isi'].apply(tokenize_text)

# Tampilkan DataFrame dengan kolom hasil tokenisasi
display(df[['cleaned_isi', 'tokenized_isi']].head())

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,cleaned_isi,tokenized_isi
0,menteri koordinator menko bidang perekonomian ...,"[menteri, koordinator, menko, bidang, perekono..."
1,dalam rangka memeriahkan hari jadi ke pt surab...,"[dalam, rangka, memeriahkan, hari, jadi, ke, p..."
2,wacana presiden prabowo subianto akan membentu...,"[wacana, presiden, prabowo, subianto, akan, me..."
3,bpjs ketenagakerjaan dan kementerian agama kem...,"[bpjs, ketenagakerjaan, dan, kementerian, agam..."
4,pemerintah akan segera membentuk satuan tugas ...,"[pemerintah, akan, segera, membentuk, satuan, ..."


## Stopword Removal

In [9]:
from nltk.corpus import stopwords
nltk.download('stopwords')

# Dapatkan Stop Word bahasa Indonesia
list_stopwords = set(stopwords.words('indonesian'))

# Fungsi untuk menghapus stop words
def remove_stopwords(tokens):
    return [word for word in tokens if word not in list_stopwords]

# Terapkan penghapusan Stop Word ke kolom 'tokenized_isi'
df['stopwords_removed_isi'] = df['tokenized_isi'].apply(remove_stopwords)

# Tampilkan DataFrame
display(df[['tokenized_isi', 'stopwords_removed_isi']].head())

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Rizky\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,tokenized_isi,stopwords_removed_isi
0,"[menteri, koordinator, menko, bidang, perekono...","[menteri, koordinator, menko, bidang, perekono..."
1,"[dalam, rangka, memeriahkan, hari, jadi, ke, p...","[rangka, memeriahkan, pt, surabaya, industrial..."
2,"[wacana, presiden, prabowo, subianto, akan, me...","[wacana, presiden, prabowo, subianto, membentu..."
3,"[bpjs, ketenagakerjaan, dan, kementerian, agam...","[bpjs, ketenagakerjaan, kementerian, agama, ke..."
4,"[pemerintah, akan, segera, membentuk, satuan, ...","[pemerintah, membentuk, satuan, tugas, pemutus..."


In [10]:
from collections import Counter

# Gabungkan semua token setelah stopword removal menjadi satu daftar
all_words_after_stopwords = [word for tokens in df['stopwords_removed_isi'] for word in tokens]

# Hitung frekuensi setiap kata
word_frequencies = Counter(all_words_after_stopwords)

# Menampilkan kata-kata yang paling umum dan frekuensinya
print("Top Most Frequent Words (Without Stemming):")
for word, frequency in word_frequencies.most_common(20): # Menampilkan 20 kata teratas
    print(f"{word}: {frequency}")

Top Most Frequent Words (Without Stemming):
indonesia: 2312
cnn: 1249
laut: 1109
presiden: 1041
rp: 1021
orang: 926
negara: 918
israel: 907
timnas: 891
persen: 883
pagar: 852
menteri: 820
pemerintah: 813
jakarta: 809
pemain: 791
piala: 753
warga: 701
prabowo: 690
tim: 682
gambasvideo: 670


In [11]:
# Buat DataFrame baru dengan isi berita asli, hasil preprocessing, dan kategori
processed_df = df[['berita', 'stopwords_removed_isi', 'kategori']].copy()

# Ganti nama kolom 'stopwords_removed_isi' menjadi 'hasil_preprocessing'
processed_df.rename(columns={'stopwords_removed_isi': 'hasil_preprocessing'}, inplace=True)

# Konversi frekuensi kata ke DataFrame
frequency_df = pd.DataFrame.from_dict(word_frequencies, orient='index', columns=['frequency'])
frequency_df.index.name = 'word'
frequency_df.sort_values(by='frequency', ascending=False, inplace=True)

# Simpan ke dua file CSV terpisah
processed_df.to_csv('hasil_preprocessing_beritaUTS.csv', index=False, encoding='utf-8')
frequency_df.to_csv('frekuensi_kata_beritaUTS.csv', encoding='utf-8')

print("Hasil preprocessing disimpan di 'hasil_preprocessing_beritaUTS.csv'")
print("Frekuensi kata disimpan di 'frekuensi_kata_beritaUTS.csv'")

Hasil preprocessing disimpan di 'hasil_preprocessing_beritaUTS.csv'
Frekuensi kata disimpan di 'frekuensi_kata_beritaUTS.csv'


In [12]:
hasil_preprocessing = "hasil_preprocessing_beritaUTS.csv"  
df = pd.read_csv(hasil_preprocessing)

# Tampilkan data
df

Unnamed: 0,berita,hasil_preprocessing,kategori
0,Menteri Koordinator (Menko) Bidang Perekonomia...,"['menteri', 'koordinator', 'menko', 'bidang', ...",Ekonomi
1,"Dalam rangka memeriahkan hari jadi ke-50, PT S...","['rangka', 'memeriahkan', 'pt', 'surabaya', 'i...",Ekonomi
2,Wacana Presiden Prabowo Subianto akan membentu...,"['wacana', 'presiden', 'prabowo', 'subianto', ...",Ekonomi
3,BPJS Ketenagakerjaan dan Kementerian Agama (Ke...,"['bpjs', 'ketenagakerjaan', 'kementerian', 'ag...",Ekonomi
4,Pemerintah akan segera membentuk Satuan Tugas ...,"['pemerintah', 'membentuk', 'satuan', 'tugas',...",Ekonomi
...,...,...,...
1495,Anggota Dewan Keselamatan Transportasi Nasiona...,"['anggota', 'dewan', 'keselamatan', 'transport...",Internasional
1496,Israel telah membebaskan 110 tahanan Palestina...,"['israel', 'membebaskan', 'tahanan', 'palestin...",Internasional
1497,Hamas mengonfirmasi kematian kepala militernya...,"['hamas', 'mengonfirmasi', 'kematian', 'kepala...",Internasional
1498,Tim penyelam diduga menemukan satu dari dua bl...,"['tim', 'penyelam', 'diduga', 'menemukan', 'bl...",Internasional


In [13]:
frekuensi_kata = "frekuensi_kata_beritaUTS.csv"  
df = pd.read_csv(frekuensi_kata)

# Tampilkan data
df

Unnamed: 0,word,frequency
0,indonesia,2312
1,cnn,1249
2,laut,1109
3,presiden,1041
4,rp,1021
...,...,...
37076,tersangkadalam,1
37077,satres,1
37078,tanahsementara,1
37079,tradisionalkkp,1
