In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

In [4]:
dataset = pd.read_csv('news_data.csv')
dataset.head()

Unnamed: 0,title,author,publish_date,article_text,url,main_image,tag
0,Hasto Ingin Debat Pilpres Pertarungan Gagasan ...,detikNews,2023-12-10 23:31:00+07:00,Sekjen PDIP sekaligus Sekretaris Tim Pemenang ...,https://news.detik.com/pemilu/d-7082492/hasto-...,https://awsimages.detik.net.id/community/media...,"['hasto kristiyanto', 'hasto', 'sekjen pdip', ..."
1,"Terima Kunjungan Gibran di Ponpes Al-Tsaqafah,...",detikNews,2023-12-10 23:09:00+07:00,Mantan Ketua Umum Pengurus Besar Nahdlatul Ula...,https://news.detik.com/pemilu/d-7082483/terima...,,"['said aqil siradj', 'gibran rakabuming', 'pem..."
2,Contoh Format dan Isi Surat Pernyataan Anggota...,detikNews,2023-12-10 22:38:00+07:00,Surat pernyataan KPPS Pemilu 2024 merupakan ba...,https://news.detik.com/pemilu/d-7082424/contoh...,https://awsimages.detik.net.id/community/media...,"['surat pernyataan kpps pemilu 2024', 'pendaft..."
3,9 Ribu Personel Gabungan Dikerahkan Amankan Na...,detikSumut,2023-12-10 22:23:00+07:00,Sekitar 9.000 personel dikerahkan untuk mengam...,https://www.detik.com/sumut/berita/d-7082448/9...,https://awsimages.detik.net.id/community/media...,"['natal', 'tahun baru', 'nataru', 'pengamanan ..."
4,Amarah Ukraina Usai Rusia Bakal Gelar Pilpres ...,detikNews,2023-12-10 22:12:00+07:00,Ukraina marah usai Rusia menjadikan empat wila...,https://news.detik.com/internasional/d-7082454...,https://awsimages.detik.net.id/community/media...,"['ukraina', 'rusia', 'pemilu rusia', 'round-up']"


In [5]:
#cek missing values
missing_values = dataset.isnull().sum()
missing_values

title              2
author             1
publish_date       0
article_text       1
url                0
main_image      1876
tag                0
dtype: int64

In [7]:
#handle missing value
dataset['title'].fillna('Unknown', inplace=True)
dataset['author'].fillna('Unknown', inplace=True)
dataset['article_text'].fillna('No content available', inplace=True)

#menghapus kolom 'main_image' terlalu banyak missing value
dataset_cleaned = dataset.drop(columns=['main_image'])

dataset_cleaned.head()

Unnamed: 0,title,author,publish_date,article_text,url,tag
0,Hasto Ingin Debat Pilpres Pertarungan Gagasan ...,detikNews,2023-12-10 23:31:00+07:00,Sekjen PDIP sekaligus Sekretaris Tim Pemenang ...,https://news.detik.com/pemilu/d-7082492/hasto-...,"['hasto kristiyanto', 'hasto', 'sekjen pdip', ..."
1,"Terima Kunjungan Gibran di Ponpes Al-Tsaqafah,...",detikNews,2023-12-10 23:09:00+07:00,Mantan Ketua Umum Pengurus Besar Nahdlatul Ula...,https://news.detik.com/pemilu/d-7082483/terima...,"['said aqil siradj', 'gibran rakabuming', 'pem..."
2,Contoh Format dan Isi Surat Pernyataan Anggota...,detikNews,2023-12-10 22:38:00+07:00,Surat pernyataan KPPS Pemilu 2024 merupakan ba...,https://news.detik.com/pemilu/d-7082424/contoh...,"['surat pernyataan kpps pemilu 2024', 'pendaft..."
3,9 Ribu Personel Gabungan Dikerahkan Amankan Na...,detikSumut,2023-12-10 22:23:00+07:00,Sekitar 9.000 personel dikerahkan untuk mengam...,https://www.detik.com/sumut/berita/d-7082448/9...,"['natal', 'tahun baru', 'nataru', 'pengamanan ..."
4,Amarah Ukraina Usai Rusia Bakal Gelar Pilpres ...,detikNews,2023-12-10 22:12:00+07:00,Ukraina marah usai Rusia menjadikan empat wila...,https://news.detik.com/internasional/d-7082454...,"['ukraina', 'rusia', 'pemilu rusia', 'round-up']"


In [8]:
#encoding 'author'
label_encoder = LabelEncoder()
dataset_cleaned['author_encoded'] = label_encoder.fit_transform(dataset_cleaned['author'])

#encoding 'tag'
dataset_cleaned['tag_encoded'] = label_encoder.fit_transform(dataset_cleaned['tag'].apply(lambda x: str(x)))


In [10]:
dataset_cleaned[['author', 'author_encoded', 'tag', 'tag_encoded']].head()

Unnamed: 0,author,author_encoded,tag,tag_encoded
0,detikNews,27,"['hasto kristiyanto', 'hasto', 'sekjen pdip', ...",7292
1,detikNews,27,"['said aqil siradj', 'gibran rakabuming', 'pem...",17190
2,detikNews,27,"['surat pernyataan kpps pemilu 2024', 'pendaft...",17818
3,detikSumut,32,"['natal', 'tahun baru', 'nataru', 'pengamanan ...",10876
4,detikNews,27,"['ukraina', 'rusia', 'pemilu rusia', 'round-up']",18383


In [18]:
X = dataset_cleaned.drop(columns=['title', 'article_text', 'url', 'author', 'publish_date', 'tag'])
y = dataset_cleaned['article_text'] 

In [19]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [22]:
print("\nFirst few rows of X_train:")
print(X_train.head())


First few rows of X_train:
       author_encoded  tag_encoded
18414              27         3131
17409              27         4171
9999               23        17773
4653               27        10377
16573              27         5078


In [23]:
print("\nFirst few rows of X_test:")
print(X_test.head())



First few rows of X_test:
       author_encoded  tag_encoded
3739               27         1424
13017              27        15059
2232                2           45
5736               27         6726
8500               24         2859


In [28]:
print("\nFirst few rows of y_train:")
print(y_train.head())


First few rows of y_train:
18414    Politisi PDIP Budiman Sudjatmiko merespons per...
17409    Anggota Majelis Tinggi Partai Demokrat Syarief...
9999     Anggota DPRD Subang aktif, S, buka suara terka...
4653     Majelis Kehormatan Mahkamah Konstitusi (MKMK) ...
16573    Bakal calon presiden (bacapres) PDIP Ganjar Pr...
Name: article_text, dtype: object


In [29]:
print("\nFirst few rows of y_test:")
print(y_test.head())


First few rows of y_test:
3739     Pasangan capres-cawapres nomor 1, Anies Baswed...
13017    Juru Bicara Sandiaga Uno, Denny H. Suryo menya...
2232     Butuh waktu lama bagi Gibran Rakabuming Raka u...
5736     Ketua DPP PDIP Ahmad Basarah menyebut Gibran R...
8500     Wali Kota Solo Gibran Rakabuming Raka mengungk...
Name: article_text, dtype: object


In [24]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [25]:
print("\nScaled X_train:")
print(pd.DataFrame(X_train_scaled).head())

print("\nScaled X_test_final:")
print(pd.DataFrame(X_test_scaled).head())


Scaled X_train:
          0         1
0  0.193970 -1.160799
1  0.193970 -0.970694
2 -1.148865  1.515664
3  0.193970  0.163723
4  0.193970 -0.804900

Scaled X_test_final:
          0         1
0  0.193970 -1.472828
1  0.193970  1.019562
2 -8.198744 -1.724900
3  0.193970 -0.503657
4 -0.813156 -1.210519


In [33]:
# Hasil dari preprocessing:

# 1. Missing values telah diisi atau dihapus.
#    Kolom title, author, dan article_text diisi dengan nilai default.
#    Kolom main_image dihapus karena terlalu banyak missing values.

# 2. Kolom author dan tag telah diencoding menggunakan LabelEncoder.

# 3. Dataset telah dipisahkan menjadi fitur (X) dan label (y) dengan benar.
#    Fitur yang tidak relevan seperti title, url, author, dan publish_date telah dihapus.

# 4. Dataset dibagi menjadi training set dan test set dengan proporsi 80% training dan 20% testing.

# 5. Feature Scaling: Semua fitur telah diskalakan menggunakan StandardScaler agar berada dalam rentang yang seragam.
#    Ini memastikan bahwa perbedaan skala antar fitur tidak mempengaruhi performa model.

