# 🔄 Preprocessing Data: Cleaning & Preparation 🛠️  
Setelah berhasil melakukan **scraping** data dari berita, langkah selanjutnya adalah **preprocessing**.  
Tahap ini bertujuan untuk membersihkan dan menyiapkan data agar siap untuk analisis lebih lanjut.  

---

## 🔧 **Libraries Used**

In [46]:
import pandas as pd
import re
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from collections import Counter

## 📥 **Import Data CSV**

In [47]:
# Import data
file_path = "../data/hasil_scrap_berita.xlsx"
df = pd.read_excel(file_path)
df

Unnamed: 0,NO,SUMBER,PENERBIT,LINK,JUDUL,content,tags,date,status
0,2,economic,Detik,https://finance.detik.com/berita-ekonomi-bisni...,Dirjen Pajak Ungkap Kabar Terbaru soal Perbaik...,Direktur Jenderal (Dirjen) Pajak Suryo Utomo m...,"coretax,dirjen pajak,administrasi perpajakan,f...",Tidak ada tanggal,success
1,3,economic,Detik,https://finance.detik.com/berita-ekonomi-bisni...,DJP Klaim Aplikasi Coretax Mulai Stabil Digunakan,Direktorat Jenderal Pajak (DJP) Kementerian Ke...,"coretax,djp,aplikasi perpajakan,pembaruan,ppnb...",25 Maret 2025,success
2,5,local news,DDTC,https://news.ddtc.co.id/berita/nasional/181042...,"Latensi Turun, DJP Klaim Coretax System Sudah ...","Ilustrasi. JAKARTA, DDTCNews - Ditjen Pajak (D...","administrasi pajak, coretax, coretax system, DJP",30 April 2025,success
3,6,economic,Detik,https://finance.detik.com/berita-ekonomi-bisni...,Awas Penipuan Catut Nama Coretax! Begini Modus...,Ditjen Pajak (DJP) Kementerian Keuangan (Kemen...,"penipuan,coretax,ditjen pajak,catut nama coret...",Tidak ada tanggal,success
4,7,local news,Tempo,https://www.tempo.co/ekonomi/hari-ini-direktor...,Hari Ini Direktorat Jenderal Pajak Rapat Tertu...,Scroll ke bawah untuk membaca berita Baca be...,Tidak ada tags,1 Januari 2025,success
...,...,...,...,...,...,...,...,...,...
149,155,local news,CNBC,https://www.cnbcindonesia.com/news/20250114071...,Keluhan Soal Coretax Terus Muncul: Sistem Tak ...,"Jakarta, CNBC Indonesia - Kalangan pengusaha d...","coretax, pajak, djp",1 Januari 2025,success
150,156,local news,Viva,https://www.viva.co.id/bisnis/1809316-coretax-...,"Coretax Bermasalah di Awal Tahun, Misbakhun Te...","Jakarta, VIVA – Meskipun terjadi defisit pada ...","misbakhun, coretax, apbn, golkar, pajak",22 Maret 2025,success
151,157,economic,Tempo,https://www.tempo.co/ekonomi/luhut-sebut-siste...,"Luhut Sebut Sistem Coretax akan Membaik, Apa i...",Scroll ke bawah untuk membaca berita Baca be...,Tidak ada tags,17 Januari 2025,success
152,159,economic,Oke Zone,https://economy.okezone.com/read/2025/04/24/32...,Sri Mulyani Pamer Setoran Pajak Naik Jadi Rp13...,JAKARTA - Menteri Keuangan Sri Mulyani Indrawa...,Tidak ada tags,24 April 2025,success


In [48]:
#Hanya akan menampilkan kolom berikut
df.loc[:,["SUMBER","PENERBIT","JUDUL", "content", "tags", "date"]]

Unnamed: 0,SUMBER,PENERBIT,JUDUL,content,tags,date
0,economic,Detik,Dirjen Pajak Ungkap Kabar Terbaru soal Perbaik...,Direktur Jenderal (Dirjen) Pajak Suryo Utomo m...,"coretax,dirjen pajak,administrasi perpajakan,f...",Tidak ada tanggal
1,economic,Detik,DJP Klaim Aplikasi Coretax Mulai Stabil Digunakan,Direktorat Jenderal Pajak (DJP) Kementerian Ke...,"coretax,djp,aplikasi perpajakan,pembaruan,ppnb...",25 Maret 2025
2,local news,DDTC,"Latensi Turun, DJP Klaim Coretax System Sudah ...","Ilustrasi. JAKARTA, DDTCNews - Ditjen Pajak (D...","administrasi pajak, coretax, coretax system, DJP",30 April 2025
3,economic,Detik,Awas Penipuan Catut Nama Coretax! Begini Modus...,Ditjen Pajak (DJP) Kementerian Keuangan (Kemen...,"penipuan,coretax,ditjen pajak,catut nama coret...",Tidak ada tanggal
4,local news,Tempo,Hari Ini Direktorat Jenderal Pajak Rapat Tertu...,Scroll ke bawah untuk membaca berita Baca be...,Tidak ada tags,1 Januari 2025
...,...,...,...,...,...,...
149,local news,CNBC,Keluhan Soal Coretax Terus Muncul: Sistem Tak ...,"Jakarta, CNBC Indonesia - Kalangan pengusaha d...","coretax, pajak, djp",1 Januari 2025
150,local news,Viva,"Coretax Bermasalah di Awal Tahun, Misbakhun Te...","Jakarta, VIVA – Meskipun terjadi defisit pada ...","misbakhun, coretax, apbn, golkar, pajak",22 Maret 2025
151,economic,Tempo,"Luhut Sebut Sistem Coretax akan Membaik, Apa i...",Scroll ke bawah untuk membaca berita Baca be...,Tidak ada tags,17 Januari 2025
152,economic,Oke Zone,Sri Mulyani Pamer Setoran Pajak Naik Jadi Rp13...,JAKARTA - Menteri Keuangan Sri Mulyani Indrawa...,Tidak ada tags,24 April 2025


## 📊 **Cek Sentiment Analysis**

In [49]:
# # Handle None values in 'content' column by replacing them with empty strings
# df['sentiment_polarity'] = df['content'].astype(str).apply(lambda x: TextBlob(x).polarity)
# df['sentiment_subjective'] = df['content'].astype(str).apply(lambda x: TextBlob(x).subjectivity)

In [50]:
# #Add a column name polarity_rating from changing the score of the review into 3 labels: Pos, Negative Neutral
# df['sentiment_rating'] = df['score'].apply(lambda x: 'Positive' if x > 3 else('Neutral' if x == 3  else 'Negative'))

In [51]:
# df.loc[:,["content","score","sentiment_polarity", "sentiment_subjective","sentiment_rating"]]

In [52]:
# plt.figure(figsize=(15, 10))
# # Specify x and y using the 'x' and 'y' parameters within sns.scatterplot
# sns.scatterplot(x=df['sentiment_polarity'], y=df['sentiment_subjective'],
#                 hue=df['sentiment_rating'], edgecolor='white', palette="pastel")
# plt.title("Google Play Store Running App Reviews Sentiment Analysis", fontsize=20)
# plt.show()

In [53]:
# # Function to plot most frequent terms
# def freq_words(x, terms=30, title="Frekuensi Kata"):
#     all_words = ' '.join([text for text in x])
#     all_words = all_words.split()
    
#     # Hitung frekuensi kata
#     fdist = FreqDist(all_words)
#     words_df = pd.DataFrame({'word': list(fdist.keys()), 'count': list(fdist.values())})

#     # Pilih top-n kata paling sering muncul
#     d = words_df.nlargest(columns="count", n=terms)

#     # Plot dengan seaborn
#     plt.figure(figsize=(20, 5))
#     ax = sns.barplot(data=d, x="word", y="count", hue="word", palette="rainbow", legend=False)
#     ax.set(ylabel='Count')

#     # Tambahkan judul
#     plt.title(title, fontsize=14)
#     plt.xticks(rotation=45)  # Rotasi label agar lebih mudah dibaca
#     plt.show()

# # Panggil fungsi dengan judul yang sesuai
# df['content'] = df['content'].fillna('').astype(str)
# freq_words(df['content'], title="Frekuensi Words Before Preprocessing")

## 📌 **Tahapan Preprocessing**

### ✅ **1. Handling Missing Values** → Menghapus atau mengisi data yang kosong  

In [54]:
print(df.isnull().sum())

NO          0
SUMBER      0
PENERBIT    0
LINK        0
JUDUL       0
content     0
tags        0
date        0
status      0
dtype: int64


Data tidak ada yang kosong

### ✅ **2. Lowercasing** → Mengubah teks menjadi huruf kecil untuk konsistensi

In [55]:
# Ubah ke lowercase hanya pada kolom teks
df['JUDUL'] = df['JUDUL'].str.lower()
df['tags'] = df['tags'].str.lower()
df['content'] = df['content'].str.lower()

In [56]:
df.head()

Unnamed: 0,NO,SUMBER,PENERBIT,LINK,JUDUL,content,tags,date,status
0,2,economic,Detik,https://finance.detik.com/berita-ekonomi-bisni...,dirjen pajak ungkap kabar terbaru soal perbaik...,direktur jenderal (dirjen) pajak suryo utomo m...,"coretax,dirjen pajak,administrasi perpajakan,f...",Tidak ada tanggal,success
1,3,economic,Detik,https://finance.detik.com/berita-ekonomi-bisni...,djp klaim aplikasi coretax mulai stabil digunakan,direktorat jenderal pajak (djp) kementerian ke...,"coretax,djp,aplikasi perpajakan,pembaruan,ppnb...",25 Maret 2025,success
2,5,local news,DDTC,https://news.ddtc.co.id/berita/nasional/181042...,"latensi turun, djp klaim coretax system sudah ...","ilustrasi. jakarta, ddtcnews - ditjen pajak (d...","administrasi pajak, coretax, coretax system, djp",30 April 2025,success
3,6,economic,Detik,https://finance.detik.com/berita-ekonomi-bisni...,awas penipuan catut nama coretax! begini modus...,ditjen pajak (djp) kementerian keuangan (kemen...,"penipuan,coretax,ditjen pajak,catut nama coret...",Tidak ada tanggal,success
4,7,local news,Tempo,https://www.tempo.co/ekonomi/hari-ini-direktor...,hari ini direktorat jenderal pajak rapat tertu...,scroll ke bawah untuk membaca berita baca be...,tidak ada tags,1 Januari 2025,success


### ✅ **3. Special Characters Removal** → menghapus kata spesial pada berita

In [57]:
def clean_text(text):
    # text = re.sub(r'^[a-zA-Z\s,]+[-\s–]+', '', text)
    text = re.sub(r'\([^)]*\)', '', text) #menghapus teks dalam kurung
    text = re.sub(r'http[s]?://\S+', '', text) #menghapus url
    text = re.sub(r'^[^—-]+[-—]\s*', '', text) ## Menghapus kata penerbit, kota di awal
    text = re.sub(r'^\d{1,2}\s\w+\s\d{4}\s*[-:]\s*', '', text) #menghapus tanggal
    text = re.sub(r'&\w+;', ' ', text)       # karakter html, Contoh: &nbsp; &quot;
    text = re.sub(r'&#\d+;', ' ', text)      # karalter html, Contoh: &#x27;
    text = re.sub(r'\d+', '', text)          # Menghapus angka
    return text

# Terapkan pada kolom 'content'
df['clean_text'] = df['content'].apply(clean_text)


In [58]:
df.loc[:,["content", "clean_text"]]

Unnamed: 0,content,clean_text
0,direktur jenderal (dirjen) pajak suryo utomo m...,direktur jenderal pajak suryo utomo mengungka...
1,direktorat jenderal pajak (djp) kementerian ke...,"rata berada di bawah , detik, dengan performa ..."
2,"ilustrasi. jakarta, ddtcnews - ditjen pajak (d...",ditjen pajak menilai performa coretax adminis...
3,ditjen pajak (djp) kementerian keuangan (kemen...,akhir ini marak penipuan yang mengatasnamakan ...
4,scroll ke bawah untuk membaca berita baca be...,direktur jenderal atau dirjen pajak kementeria...
...,...,...
149,"jakarta, cnbc indonesia - kalangan pengusaha d...",kalangan pengusaha dan pakar pajak memberikan ...
150,"jakarta, viva – meskipun terjadi defisit pada ...","bulan berikutnya. makanya, misbakhun meminta p..."
151,scroll ke bawah untuk membaca berita baca be...,masih bermasalah di pekan kedua setelah diimpl...
152,jakarta - menteri keuangan sri mulyani indrawa...,menteri keuangan sri mulyani indrawati mengung...


### ✅ **4. Punctuations removal** → Menghapus tanda baca dan simbol yang tidak relevan.

In [59]:
def clean_special_chars(text):
    # Hilangkan emoji dan simbol unicode lainnya
    text = re.sub(r'[^\x00-\x7F]+', ' ', text)  
    
    # Hilangkan tanda baca dan simbol matematika
    text = re.sub(r'[^\w\s]', ' ', text)

    # Hilangkan extra whitespace
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Terapkan
df['content_clean'] = df['clean_text'].apply(clean_special_chars)


In [60]:
df.loc[:,["clean_text", "content_clean"]]

Unnamed: 0,clean_text,content_clean
0,direktur jenderal pajak suryo utomo mengungka...,direktur jenderal pajak suryo utomo mengungkap...
1,"rata berada di bawah , detik, dengan performa ...",rata berada di bawah detik dengan performa ter...
2,ditjen pajak menilai performa coretax adminis...,ditjen pajak menilai performa coretax administ...
3,akhir ini marak penipuan yang mengatasnamakan ...,akhir ini marak penipuan yang mengatasnamakan ...
4,direktur jenderal atau dirjen pajak kementeria...,direktur jenderal atau dirjen pajak kementeria...
...,...,...
149,kalangan pengusaha dan pakar pajak memberikan ...,kalangan pengusaha dan pakar pajak memberikan ...
150,"bulan berikutnya. makanya, misbakhun meminta p...",bulan berikutnya makanya misbakhun meminta par...
151,masih bermasalah di pekan kedua setelah diimpl...,masih bermasalah di pekan kedua setelah diimpl...
152,menteri keuangan sri mulyani indrawati mengung...,menteri keuangan sri mulyani indrawati mengung...


### ✅ **5. Tokenization** → Memisahkan teks menjadi kata-kata atau unit kecil lainnya.

In [61]:
def tokenize(text):
    return re.findall(r'\b\w+\b', text.lower())

# Apply
df['tokens'] = df['content_clean'].apply(tokenize)

In [62]:
# Cek hasil tokenisasi
df[["content_clean", "tokens"]].head()

Unnamed: 0,content_clean,tokens
0,direktur jenderal pajak suryo utomo mengungkap...,"[direktur, jenderal, pajak, suryo, utomo, meng..."
1,rata berada di bawah detik dengan performa ter...,"[rata, berada, di, bawah, detik, dengan, perfo..."
2,ditjen pajak menilai performa coretax administ...,"[ditjen, pajak, menilai, performa, coretax, ad..."
3,akhir ini marak penipuan yang mengatasnamakan ...,"[akhir, ini, marak, penipuan, yang, mengatasna..."
4,direktur jenderal atau dirjen pajak kementeria...,"[direktur, jenderal, atau, dirjen, pajak, keme..."


### ✅ **6. Stopword Removal** → Menghapus kata-kata umum yang tidak bermakna dalam analisis

In [63]:
stop_factory = StopWordRemoverFactory()
stop_words = set(stop_factory.get_stop_words())

filtered_stop_words = stop_words.copy()
new_stopwords = ["ada", "lalu", "guna", "klik", "sini", "beri", "bagai", "atas", "bulan", "sama", "kini"] # Bisa menambahkan stopword lain sesuai kebutuhan

def remove_stopwords(tokens):
    cleaned_tokens = [
        token.strip() for token in tokens  # Hapus spasi atau karakter aneh
        if len(token) > 3  # Hapus kata tidak penting
    ]
    # Menghapus stopwords dari token
    return [t for t in cleaned_tokens if t.lower() not in filtered_stop_words]

# Terapkan ke DataFrame
df['stopword_removal'] = df['tokens'].apply(remove_stopwords)

In [64]:
# Cek hasil 
df[["tokens", "stopword_removal"]].head()

Unnamed: 0,tokens,stopword_removal
0,"[direktur, jenderal, pajak, suryo, utomo, meng...","[direktur, jenderal, pajak, suryo, utomo, meng..."
1,"[rata, berada, di, bawah, detik, dengan, perfo...","[rata, berada, bawah, detik, performa, terbaik..."
2,"[ditjen, pajak, menilai, performa, coretax, ad...","[ditjen, pajak, menilai, performa, coretax, ad..."
3,"[akhir, ini, marak, penipuan, yang, mengatasna...","[akhir, marak, penipuan, mengatasnamakan, impl..."
4,"[direktur, jenderal, atau, dirjen, pajak, keme...","[direktur, jenderal, dirjen, pajak, kementeria..."


### ✅ **7.  Stemming** → Mengubah kata menjadi bentuk dasarnya

In [65]:
# Membuat objek stemmer
stem_factory = StemmerFactory()
stemmer = stem_factory.create_stemmer()

# Fungsi untuk melakukan stemming pada tokens
def stem_tokens(tokens):
    return [stemmer.stem(token) for token in tokens]

# Terapkan stemming ke DataFrame
df['stemming_output'] = df['stopword_removal'].apply(stem_tokens)

In [None]:
# Cek hasil 
df[["stopword_removal", "stemming_output"]].head()

Unnamed: 0,stopword_removal,stemming_output
0,"[direktur, jenderal, pajak, suryo, utomo, meng...","[direktur, jenderal, pajak, suryo, utomo, ungk..."
1,"[rata, berada, bawah, detik, performa, terbaik...","[rata, ada, bawah, detik, performa, baik, cata..."
2,"[ditjen, pajak, menilai, performa, coretax, ad...","[ditjen, pajak, nilai, performa, coretax, admi..."
3,"[akhir, marak, penipuan, mengatasnamakan, impl...","[akhir, marak, tipu, mengatasnamakan, implemen..."
4,"[direktur, jenderal, dirjen, pajak, kementeria...","[direktur, jenderal, dirjen, pajak, menteri, u..."


### ✅ **8. Rare Words Removal** → Menghapus kata yang jarang muncul.

In [None]:
word_counts = Counter(word for tokens in df["stemming_output"] for word in tokens)

rare_threshold = 2
rare_words = {word for word, count in word_counts.items() if count < rare_threshold}

def remove_rare_words(tokens):
    return [word for word in tokens if word not in rare_words]

df['rareword_removed'] = df['stemming_output'].apply(remove_rare_words)

In [None]:
# Cek hasil 
df[["stemming_output", "rareword_removed",]].head()

Unnamed: 0,stemming_output,rareword_removed
0,"[direktur, jenderal, pajak, suryo, utomo, ungk...","[direktur, jenderal, pajak, suryo, utomo, ungk..."
1,"[rata, ada, bawah, detik, performa, baik, cata...","[rata, ada, bawah, detik, performa, baik, cata..."
2,"[ditjen, pajak, nilai, performa, coretax, admi...","[ditjen, pajak, nilai, performa, coretax, admi..."
3,"[akhir, marak, tipu, mengatasnamakan, implemen...","[akhir, marak, tipu, mengatasnamakan, implemen..."
4,"[direktur, jenderal, dirjen, pajak, menteri, u...","[direktur, jenderal, dirjen, pajak, menteri, u..."


In [None]:
from collections import Counter

# Gabungkan semua token dalam kolom 'rareword_removed' menjadi satu list
all_words = [word for tokens in df['rareword_removed'] for word in tokens]

# Hitung frekuensi kemunculan setiap kata
word_counts = Counter(all_words)

# Tampilkan hasil
print(word_counts) 

Counter({'pajak': 2204, 'coretax': 1247, 'sistem': 901, 'wajib': 678, 'faktur': 554, 'paja': 502, 'jadi': 480, 'laku': 422, 'data': 419, 'terima': 392, 'sebut': 346, 'lalu': 326, 'guna': 318, 'baik': 300, 'layan': 295, 'baca': 295, 'tahun': 279, 'lebih': 276, 'lapor': 271, 'proses': 266, 'masalah': 256, 'buat': 256, 'administrasi': 253, 'kata': 250, 'berita': 241, 'iklan': 234, 'januari': 229, 'tingkat': 228, 'negara': 228, 'besar': 227, 'masa': 224, 'usaha': 221, 'indonesia': 221, 'baru': 218, 'kendala': 208, 'klik': 207, 'sini': 204, 'uang': 203, 'banyak': 200, 'sedikit': 195, 'implementasi': 192, 'hasil': 191, 'perintah': 189, 'menteri': 183, 'hingga': 181, 'lama': 179, 'dapat': 174, 'terap': 162, 'beri': 162, 'aplikasi': 161, 'akses': 161, 'masuk': 161, 'perlu': 161, 'satu': 156, 'jenderal': 154, 'atas': 154, 'bagai': 154, 'triliun': 146, 'system': 144, 'kait': 142, 'hukum': 141, 'jumlah': 140, 'direktorat': 139, 'maret': 134, 'tambah': 134, 'bulan': 132, 'bayar': 131, 'kena': 129,

### ✅ **9. Delete Empty Rows**

In [None]:
# Cek jumlah baris yang memiliki token kosong setelah preprocessing
df_empty = df[df["rareword_removed"].apply(lambda x: len(x) == 0)]
print(f"Jumlah baris kosong: {len(df_empty)}")

Jumlah baris kosong: 0


## 📌 **Save Data**

In [None]:
# Simpan DataFrame
output_path = "../data/hasil_preprocessing.xlsx"
df.to_excel(output_path, index=False)