#   Preprocessing Berita CNN Indonesia

In [1]:
import pandas as pd

# Load data from berita_cnn.csv
df = pd.read_csv('berita_cnn.csv')

In [2]:
# Display basic information about the dataset
print("Dataset shape:", df.shape)
df

Dataset shape: (151, 4)


Unnamed: 0,judul,kategori,isi,link
0,"Ada Putusan MK, TNI Masih Pertimbangkan Polisi...",nasional,TNImasih mempertimbangkan langkah hukum yang a...,https://www.cnnindonesia.com/nasional/20250910...
1,Sara Keponakan Prabowo Mundur dari DPR,nasional,Politikus Partai GerindraRahayu Saraswati Djoj...,https://www.cnnindonesia.com/nasional/20250910...
2,"Tanggul Beton Cilincing, DKI Sebut Perizinan d...",nasional,Staf Khusus Gubernur DKI Jakarta Bidang Komuni...,https://www.cnnindonesia.com/nasional/20250910...
3,Pernyataan Lengkap Rahayu Saraswati Gerindra M...,nasional,Politikus Partai Gerindrayang juga keponakan P...,https://www.cnnindonesia.com/nasional/20250910...
4,Rahayu Saraswati Ungkap Alasan Mundur dari DPR,nasional,"Keponakan Presiden Prabowo Subianto,Rahayu Sar...",https://www.cnnindonesia.com/nasional/20250910...
...,...,...,...,...
146,DKI Evaluasi Cakupan Imunisasi Campak Hingga T...,gaya-hidup,DKI evaluasi cakupanimunisasicampak hingga tin...,https://www.cnnindonesia.com/gaya-hidup/202509...
147,Apa yang Terjadi pada Tubuh Saat Stres Berlebi...,gaya-hidup,Situasi negara saat ini tak pelak bikinstres. ...,https://www.cnnindonesia.com/gaya-hidup/202509...
148,5 Sayuran Ini Tak Dianjurkan untuk Penderita A...,gaya-hidup,Banyak pakarkesehatanmenganjurkan konsumsisayu...,https://www.cnnindonesia.com/gaya-hidup/202508...
149,"Marak Delay, Maskapai Ini Persilakan Penumpang...",gaya-hidup,MaskapaiRyanair mengimbau para penumpang yang ...,https://www.cnnindonesia.com/gaya-hidup/202509...


In [3]:
print("\nDataset info:")
df.info()


Dataset info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151 entries, 0 to 150
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   judul     151 non-null    object
 1   kategori  151 non-null    object
 2   isi       151 non-null    object
 3   link      151 non-null    object
dtypes: object(4)
memory usage: 4.8+ KB


#   PREPROCESSING

In [4]:
# Tampilkan data "isi"
df['isi']

0      TNImasih mempertimbangkan langkah hukum yang a...
1      Politikus Partai GerindraRahayu Saraswati Djoj...
2      Staf Khusus Gubernur DKI Jakarta Bidang Komuni...
3      Politikus Partai Gerindrayang juga keponakan P...
4      Keponakan Presiden Prabowo Subianto,Rahayu Sar...
                             ...                        
146    DKI evaluasi cakupanimunisasicampak hingga tin...
147    Situasi negara saat ini tak pelak bikinstres. ...
148    Banyak pakarkesehatanmenganjurkan konsumsisayu...
149    MaskapaiRyanair mengimbau para penumpang yang ...
150    Mengenal gejala dan penanganandiabetespada ana...
Name: isi, Length: 151, dtype: object

## Hapus Missing Value dan Data Duplicat

In [5]:
# Hapus baris dengan Missing Value di 'isi'
df.dropna(subset=['isi'], inplace=True)

# Hapus data duplikat
df.drop_duplicates(inplace=True)

## Test Cleaning

In [6]:
import re

# Fungsi untuk membersihkan teks
def clean_text(text):
    text = text.lower() # Ubah ke huruf kecil
    text = re.sub(r'[^\w\s]', '', text) # Hapus tanda baca
    text = re.sub(r'\d+', '', text) # Hapus nomor
    return text

# Terapkan pembersihan ke kolom 'isi'
df['cleaned_isi'] = df['isi'].apply(clean_text)

# Tampilkan DataFrame
display(df[['isi', 'cleaned_isi']].head())

Unnamed: 0,isi,cleaned_isi
0,TNImasih mempertimbangkan langkah hukum yang a...,tnimasih mempertimbangkan langkah hukum yang a...
1,Politikus Partai GerindraRahayu Saraswati Djoj...,politikus partai gerindrarahayu saraswati djoj...
2,Staf Khusus Gubernur DKI Jakarta Bidang Komuni...,staf khusus gubernur dki jakarta bidang komuni...
3,Politikus Partai Gerindrayang juga keponakan P...,politikus partai gerindrayang juga keponakan p...
4,"Keponakan Presiden Prabowo Subianto,Rahayu Sar...",keponakan presiden prabowo subiantorahayu sara...


## Tokenisasi

In [7]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') 

# Fungsi untuk melakukan tokenisasi
def tokenize_text(text):
    return word_tokenize(text)

# Terapkan tokenisasi ke kolom 'cleaned_isi'
df['tokenized_isi'] = df['cleaned_isi'].apply(tokenize_text)

# Tampilkan DataFrame dengan kolom hasil tokenisasi
display(df[['cleaned_isi', 'tokenized_isi']].head())

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,cleaned_isi,tokenized_isi
0,tnimasih mempertimbangkan langkah hukum yang a...,"[tnimasih, mempertimbangkan, langkah, hukum, y..."
1,politikus partai gerindrarahayu saraswati djoj...,"[politikus, partai, gerindrarahayu, saraswati,..."
2,staf khusus gubernur dki jakarta bidang komuni...,"[staf, khusus, gubernur, dki, jakarta, bidang,..."
3,politikus partai gerindrayang juga keponakan p...,"[politikus, partai, gerindrayang, juga, kepona..."
4,keponakan presiden prabowo subiantorahayu sara...,"[keponakan, presiden, prabowo, subiantorahayu,..."


## Stopword Removal

In [8]:
from nltk.corpus import stopwords
nltk.download('stopwords')

# Dapatkan Stop Word bahasa Indonesia
list_stopwords = set(stopwords.words('indonesian'))

# Fungsi untuk menghapus stop words
def remove_stopwords(tokens):
    return [word for word in tokens if word not in list_stopwords]

# Terapkan penghapusan Stop Word ke kolom 'tokenized_isi'
df['stopwords_removed_isi'] = df['tokenized_isi'].apply(remove_stopwords)

# Tampilkan DataFrame
display(df[['tokenized_isi', 'stopwords_removed_isi']].head())

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,tokenized_isi,stopwords_removed_isi
0,"[tnimasih, mempertimbangkan, langkah, hukum, y...","[tnimasih, mempertimbangkan, langkah, hukum, d..."
1,"[politikus, partai, gerindrarahayu, saraswati,...","[politikus, partai, gerindrarahayu, saraswati,..."
2,"[staf, khusus, gubernur, dki, jakarta, bidang,...","[staf, khusus, gubernur, dki, jakarta, bidang,..."
3,"[politikus, partai, gerindrayang, juga, kepona...","[politikus, partai, gerindrayang, keponakan, p..."
4,"[keponakan, presiden, prabowo, subiantorahayu,...","[keponakan, presiden, prabowo, subiantorahayu,..."


## Stemming

In [9]:
!pip install Sastrawi



In [10]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Buat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi untuk melakukan stemming
def stem_tokens(tokens):
    return [stemmer.stem(token) for token in tokens]

# Terapkan stemming ke kolom 'stopwords_removed_isi'
df['stemmed_isi'] = df['stopwords_removed_isi'].apply(stem_tokens)

# Function to find and format stemmed word changes
def get_stemming_changes(original_tokens, stemmed_tokens):
    changes = []
    for original, stemmed in zip(original_tokens, stemmed_tokens):
        if original != stemmed:
            changes.append(f"{original} : {stemmed}")
    return changes

# Dapatkan semua perubahan stemming dari kolom 'stopwords_removed_isi' dan 'stemmed_isi'
all_changes = []
for index, row in df.iterrows():
    all_changes.extend(get_stemming_changes(row['stopwords_removed_isi'], row['stemmed_isi']))

# Dapatkan perubahan unik dan urutkan
unique_changes = sorted(list(set(all_changes)))

# Cetak perubahan unik
print("Kata-kata yang mengalami stemming:")
for change in unique_changes:
    print(change)

# Tampilkan DataFrame
display(df[['stopwords_removed_isi', 'stemmed_isi']].head())

Kata-kata yang mengalami stemming:
acuan : acu
agensi : agens
akibatnya : akibat
akrabnya : akrab
aksesnya : akses
aktornya : aktor
akunnya : akun
alasan : alas
alasannya : alas
alfan : alf
aliran : alir
amali : amal
amukan : amuk
anakan : ana
anaknya : anak
ancaman : ancam
andalan : andal
anggapan : anggap
anggaran : anggar
anggarannya : anggar
angkanya : angka
angkatan : angkat
apapun : apa
arahan : arah
arahkan : arah
asuhan : asuh
atasnya : atas
aturan : atur
ayahnya : ayah
badannya : badan
bagusnya : bagus
baiklah : baik
baiknya : baik
bali : bal
bandingkan : banding
bangunan : bangun
bantuan : bantu
banyaknya : banyak
barangnya : barang
barulah : baru
barunya : baru
batasi : batas
baterainya : baterai
bauran : baur
bayangan : bayang
bekasi : bekas
belajar : ajar
belasan : bas
bentrokan : bentrok
bepergian : pergi
beragam : agam
beragama : agama
berakibat : akibat
beraksi : aksi
berakting : akting
beraktivitas : aktivitas
beralamat : alamat
beralih : alih
beralkohol : alkohol
bera

Unnamed: 0,stopwords_removed_isi,stemmed_isi
0,"[tnimasih, mempertimbangkan, langkah, hukum, d...","[tnimasih, timbang, langkah, hukum, ambil, ceo..."
1,"[politikus, partai, gerindrarahayu, saraswati,...","[politikus, partai, gerindrarahayu, saraswati,..."
2,"[staf, khusus, gubernur, dki, jakarta, bidang,...","[staf, khusus, gubernur, dki, jakarta, bidang,..."
3,"[politikus, partai, gerindrayang, keponakan, p...","[politikus, partai, gerindrayang, keponakan, p..."
4,"[keponakan, presiden, prabowo, subiantorahayu,...","[keponakan, presiden, prabowo, subiantorahayu,..."


In [11]:
from collections import Counter

# Gabungkan semua token yang bertangkai menjadi satu daftar
all_stemmed_words = [word for tokens in df['stemmed_isi'] for word in tokens]

# Hitung frekuensi setiap kata
word_frequencies = Counter(all_stemmed_words)

# Menampilkan kata-kata yang paling umum dan frekuensinya
print("Top Most Frequent Words:")
for word, frequency in word_frequencies.most_common():
    print(f"{word}: {frequency}")

Top Most Frequent Words:
iphone: 205
indonesia: 200
to: 165
scroll: 162
with: 161
advertisement: 159
continue: 159
content: 159
menteri: 150
rp: 150
apple: 134
persen: 108
usaha: 96
tingkat: 96
milik: 95
air: 95
orang: 95
jalan: 89
makan: 87
salah: 84
perintah: 84
juta: 84
hadir: 82
ekonomi: 79
kali: 77
rabu: 76
the: 76
negara: 75
pro: 74
harga: 72
jakarta: 71
temu: 71
tahan: 67
purbaya: 67
dukung: 66
kerja: 65
sehat: 65
rumah: 65
tubuh: 65
uang: 64
konsumsi: 64
wilayah: 63
baru: 63
main: 63
dunia: 62
masyarakat: 61
mobil: 61
serang: 60
aman: 59
presiden: 59
israel: 59
sakit: 57
bantu: 57
cepat: 56
cnn: 56
kondisi: 55
tim: 55
film: 55
alami: 54
u: 54
gambasvideo: 53
lapor: 52
kait: 52
hasil: 52
tumbuh: 52
bawa: 52
nilai: 51
pilih: 50
nama: 49
anggota: 49
malam: 49
kendara: 49
selasa: 47
terbang: 47
ular: 47
utama: 46
banding: 46
triliun: 46
langsung: 45
jaga: 44
tinggal: 44
varian: 44
hidup: 43
produk: 43
energi: 43
pasar: 43
capai: 43
kamera: 43
jual: 42
serta: 42
tidur: 42
nyata: 41


In [12]:
# Buat DataFrame baru dengan isi asli, isi stemmed, dan kategori
processed_df = df[['isi', 'stemmed_isi', 'kategori']].copy()

# Ganti nama kolom
processed_df.rename(columns={'stemmed_isi': 'hasil_preprocessing'}, inplace=True)

# Konversi frekuensi kata ke DataFrame
frequency_df = pd.DataFrame.from_dict(word_frequencies, orient='index', columns=['frequency'])
frequency_df.index.name = 'word'
frequency_df.sort_values(by='frequency', ascending=False, inplace=True)

# Simpan ke dua file CSV terpisah
processed_df.to_csv('hasil_preprocessing_berita.csv', index=False, encoding='utf-8')
frequency_df.to_csv('frekuensi_kata_berita.csv', encoding='utf-8')

print("Hasil preprocessing disimpan di 'hasil_preprocessing_berita.csv'")
print("Frekuensi kata disimpan di 'frekuensi_kata_berita.csv'")

Hasil preprocessing disimpan di 'hasil_preprocessing_berita.csv'
Frekuensi kata disimpan di 'frekuensi_kata_berita.csv'


In [13]:
hasil_preprocessing = "hasil_preprocessing_berita.csv"  
df = pd.read_csv(hasil_preprocessing)

# Tampilkan data
df

Unnamed: 0,isi,hasil_preprocessing,kategori
0,TNImasih mempertimbangkan langkah hukum yang a...,"['tnimasih', 'timbang', 'langkah', 'hukum', 'a...",nasional
1,Politikus Partai GerindraRahayu Saraswati Djoj...,"['politikus', 'partai', 'gerindrarahayu', 'sar...",nasional
2,Staf Khusus Gubernur DKI Jakarta Bidang Komuni...,"['staf', 'khusus', 'gubernur', 'dki', 'jakarta...",nasional
3,Politikus Partai Gerindrayang juga keponakan P...,"['politikus', 'partai', 'gerindrayang', 'kepon...",nasional
4,"Keponakan Presiden Prabowo Subianto,Rahayu Sar...","['keponakan', 'presiden', 'prabowo', 'subianto...",nasional
...,...,...,...
146,DKI evaluasi cakupanimunisasicampak hingga tin...,"['dki', 'evaluasi', 'cakupanimunisasicampak', ...",gaya-hidup
147,Situasi negara saat ini tak pelak bikinstres. ...,"['situasi', 'negara', 'pelak', 'bikinstres', '...",gaya-hidup
148,Banyak pakarkesehatanmenganjurkan konsumsisayu...,"['pakarkesehatanmenganjurkan', 'konsumsisayura...",gaya-hidup
149,MaskapaiRyanair mengimbau para penumpang yang ...,"['maskapairyanair', 'imbau', 'tumpang', 'alami...",gaya-hidup


In [14]:
frekuensi_kata = "frekuensi_kata_berita.csv"  
df = pd.read_csv(frekuensi_kata)

# Tampilkan data
df

Unnamed: 0,word,frequency
0,iphone,205
1,indonesia,200
2,to,165
3,scroll,162
4,with,161
...,...,...
5839,gelas,1
5840,jus,1
5841,maskapairyanair,1
5842,dublin,1
