# 2. Modelling Vector Space Model

## Apa itu Vector Space Model

Vector Space Model (VSM) adalah model matematika yang digunakan untuk merepresentasikan dokumen teks sebagai vektor dari identifikator (seperti kata-kata atau token). Model ini adalah bagian fundamental dalam sistem informasi pencarian dan teknik pemrosesan bahasa alami untuk menilai dan mengurutkan dokumen berdasarkan relevansinya terhadap suatu query.

### Konsep Dasar

Dalam VSM, setiap dimensi vektor mewakili sebuah term (kata) yang unik dalam dokumen. Nilai dalam vektor ini bisa merupakan frekuensi kemunculan kata, atau bobot yang lebih kompleks seperti TF-IDF, yang menggabungkan frekuensi kata dalam dokumen (TF) dan kebalikan frekuensi dokumen (IDF). Setiap dokumen direpresentasikan sebagai titik dalam ruang vektor ini.

### Kegunaan

Model ini sangat berguna dalam sistem pencarian dan pengambilan informasi karena memungkinkan operasi seperti pencarian kecocokan dan perankingan dilakukan secara matematis. VSM memfasilitasi pencocokan query pencarian dengan koleksi dokumen melalui perhitungan kedekatan vektor, menggunakan teknik seperti cosine similarity.

### Keunggulan

- **Flexibilitas**: VSM memungkinkan penyertaan berbagai metode penghitungan bobot selain frekuensi term, seperti TF-IDF, yang meningkatkan efektivitas model dalam menghadapi isu seperti kata-kata yang sangat umum yang muncul di banyak dokumen.
- **Efisiensi**: Meskipun representasi vektor dapat menjadi sangat besar, teknik seperti sparse matrix operations memungkinkan pemrosesan yang efisien.
- **Kemampuan Komparatif**: Dengan merepresentasikan dokumen sebagai vektor, mudah untuk mengukur kesamaan antar dokumen.

### Keterbatasan

- **Semantik**: VSM tidak memperhitungkan konteks dan makna semantik dari kata-kata, yang bisa mengakibatkan dokumen yang sebenarnya berkaitan tidak dikenali sebagai relevan.
- **Sinonim dan Polisemi**: Kata-kata dengan makna ganda atau sinonim mungkin tidak diproses dengan efektif, karena model ini berfokus pada kata-kata sebagai entitas independen tanpa mempertimbangkan hubungan semantiknya.

## Konsep TF-IDF

Metode  Term  Frequency-Inverse Document Frequency (TF-IDF) adalah salah satu  teknik  representasi  teks yang mengonversi kata-kata menjadi  nilai  numerik  berdasarkan  seberapa  sering kata tersebut  muncul  dalam  teks  serta  seberapa  umumnya kata tersebut  dalam  kumpulan  dokumen yang tersedia. Bobot  numerik yang dihasilkan oleh metode  ini  sering  disebut  sebagai  bobot TF-IDF.

### Term Frequency (TF)

**Term Frequency**: Dalam  dokumen d, frekuensi  merepresentasikan  jumlah  kemunculan kata t. Oleh karena  itu, kita  dapat  melihat  bahwa  frekuensi  menjadi  lebih  relevan  ketika  sebuah kata muncul di dalam  teks, yang mana hal  ini  rasional. Karena urutan  istilah  tidak  signifikan, kita  dapat  menggunakan  vektor  untuk  menggambarkan  teks  dalam  kantong model istilah. Untuk  setiap  istilah  tertentu  dalam  teks, ada  sebuah  entri  dengan  nilai yang merupakan  frekuensi  istilah. Bobot  sebuah  istilah yang muncul  dalam  sebuah  dokumen  secara  sederhana  sebanding  dengan  frekuensi  istilah  tersebut


$$
    tf(t, d) = \frac{\text{jumalah } t \text{ dalam } d}{\text{jumlah kata dalam } d}
$$



**Dokument Frequency**: mengukur  seberapa  umumnya  suatu kata terjadi di seluruh  koleksi  dokumen. Konsep  ini  mirip  dengan Term Frequency (TF), namun  perbedaannya  terletak pada bagaimana  kita  menghitung  kemunculan  suatu kata. Di TF, kita  melihat  seberapa  sering kata muncul  dalam  satu  dokumen  tertentu, sedangkan di DF, kita  melihat  berapa  banyak  dokumen yang mengandung kata tersebut di dalam  keseluruhan  koleksi  dokumen. Jadi, Document Frequency (DF) adalah  jumlah  dokumen yang memuat  suatu kata.

$$
    df(t) = \text{kemunculan } t \text{ dalam } dokumen
$$


### Inverse Document Frequency (IDF)

**Inverse Document Frequency (IDF)**: mengevaluasi tingkat relevansi suatu kata dalam konteks pencarian. Ketika mencari informasi, tujuan utama adalah menemukan dokumen yang paling sesuai dengan permintaan pengguna. Mengingat bahwa Term Frequency (TF) memperlakukan semua kata dengan nilai yang sama, frekuensi kata itu sendiri tidak cukup untuk menilai  bobot istilah dalam sebuah dokumen. IDF pertama-tama mencari frekuensi kemunculan dokumen untuk suatu kata dengan menghitung jumlah dokumen yang mengandung kata tersebut.

$$
    df(t) = N(t)
$$

$$
    df(t) = \text{Frekuensi dokumen dari suatu istilah t}
$$

$$
    N(t) = \text{Jumlah } dokumen \text{ yang mengandung istilah } t
$$

### TF-IDF

Term Frequency adalah jumlah kemunculan suatu term dalam satu dokumen saja, sedangkan Document Frequency adalah jumlah dokumen terpisah tempat istilah tersebut muncul. Namun, frekuensi ini bergantung pada seluruh korpus. IDF merupakan jumlah dokumen dalam korpus yang dipisahkan oleh frekuensi teks. Dengan kata lain, IDF mengukur seberapa umum atau langka suatu kata dalam seluruh koleksi dokumen.

$$
    idf(t) = \frac{N}{df(t)}=\frac{N}{N(t)}
$$

$$
    idf(t) = log_2 \frac{N}{df(t)}
$$

Maka dari itu rumus dari TF * IDF adalah sebagai berikut:

$$
    tf-idf(t, d) = tf(t, d) * idf(t)
$$

## Modelling SVM

### Prepocessing

In [1]:
!pip install Sastrawi nltk

Defaulting to user installation because normal site-packages is not writeable


In [2]:
# import library yang dibutuhkan
import pandas as pd
import re
from tqdm import tqdm
import nltk
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from nltk.corpus import stopwords
import string

In [3]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\akhyar\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Data yang sebelumnya sudah discrapping pada [tugas 1](https://rrayhka.github.io/pencarian-penambangan-web/tugas-1-crawling.html#convert-data-ke-dalam-csv) diimport untuk dijadikan VSM

In [4]:
df = pd.read_csv("data-artikel-cnbc.csv")

In [5]:
df.head()

Unnamed: 0,judul,tanggal,isi,url,kategori
0,Bukan Kaleng-kaleng! Nilai Skuad Timnas Indone...,09 September 2024 19:30,"Jakarta, CNBC Indonesia -Kedatangan pemain-pem...",https://www.cnbcindonesia.com/research/2024090...,Research
1,"Aset Bank Mandiri Tembus Rp 2.200 T, Paling Ju...",09 September 2024 19:05,"Jakarta, CNBC Indonesia -Sepanjang paruh perta...",https://www.cnbcindonesia.com/research/2024090...,Research
2,Emas Meredup Saat Suku Bunga The Fed Mau Turun...,09 September 2024 18:10,"Jakarta,CNBC Indonesia -Harga emas dunia melem...",https://www.cnbcindonesia.com/research/2024090...,Research
3,"Tetangga RI Dihantam 'Bencana' Iklim, Harga Ba...",09 September 2024 15:55,"Jakarta, CNBC Indonesia -Indeks Harga Konsumen...",https://www.cnbcindonesia.com/research/2024090...,Research
4,"Tantama Hingga Perwira, Ini Urutan Lengkap Pan...",09 September 2024 14:35,"Jakarta, CNBC Indonesia-Tentara Nasional Indon...",https://www.cnbcindonesia.com/research/2024090...,Research


In [6]:
# hanya memilih kolom judul, isi, dan kategori
df = df[['isi','kategori']]
df.head()

Unnamed: 0,isi,kategori
0,"Jakarta, CNBC Indonesia -Kedatangan pemain-pem...",Research
1,"Jakarta, CNBC Indonesia -Sepanjang paruh perta...",Research
2,"Jakarta,CNBC Indonesia -Harga emas dunia melem...",Research
3,"Jakarta, CNBC Indonesia -Indeks Harga Konsumen...",Research
4,"Jakarta, CNBC Indonesia-Tentara Nasional Indon...",Research


In [7]:
# Filter data untuk kategori "Research" dan "News" masing-masing diambil 50 berita
research = df[df["kategori"] == "Research"].sample(n=50, random_state=42)
news = df[df["kategori"] == "News"].sample(n=50, random_state=42)

In [8]:
# Gabungkan keduanya
data = pd.concat([research, news], ignore_index=True)

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   isi       100 non-null    object
 1   kategori  100 non-null    object
dtypes: object(2)
memory usage: 1.7+ KB


In [10]:
data.head()

Unnamed: 0,isi,kategori
0,"Jakarta, CNBC Indonesia -Sejumlah agenda dan e...",Research
1,"Jakarta, CNBC Indonesia-Memasuki September 202...",Research
2,"Jakarta, CNBC Indonesia- Gempamegathrusthingga...",Research
3,"Jakarta,CNBC Indonesia-Gaharu, juga dikenal se...",Research
4,"Jakarta, CNBC Indonesia -Dalam ajaran resmi Ge...",Research


In [11]:
data = data.sample(frac = 1, ignore_index=True)

#### Beberapa FUngsi yang digunakan untuk mengolah dataset kata

1. **Pembersihan Teks**:
       - Menghapus URL yang diawali dengan "www." atau "https://", agar tidak mengganggu hasil analisis.
       - Menghapus mention username yang diawali dengan '@' untuk menghindari gangguan dari referensi ke akun sosial media.
       - Menghapus spasi berlebih yang muncul akibat pembersihan teks sebelumnya.
       - Menghapus hashtag (kata yang diawali dengan '#'), karena hashtag tidak diperlukan dalam analisis konten.
       - Menghapus teks 'RT' (retweet) yang biasa ditemukan dalam tweet.
       - Menghapus tanda baca seperti titik, koma, tanda seru, dan karakter non-alfanumerik lainnya.
       - Menghapus angka dari teks karena angka biasanya tidak berkontribusi pada pemahaman konteks dalam teks (kecuali dalam analisis numerik).
       - Mengubah teks menjadi huruf kecil agar seragam dalam pengolahan, terutama dalam analisis berbasis kata.
       - Menghapus karakter non-ASCII untuk menghindari simbol atau karakter yang tidak dikenal di encoding ASCII.
       - Menghapus karakter tambahan non-ASCII yang mungkin masih tersisa di dalam teks.
       - Menghapus baris baru ('\n') agar hasilnya berupa satu baris teks yang konsisten.

2. **Stemming**:
       - Menggunakan library `Sastrawi` untuk stemming teks bahasa Indonesia. Stemming adalah proses mengubah kata-kata menjadi bentuk dasar (akar kata),
         sehingga kata yang beragam seperti "makan", "memakan", "dimakan" semuanya diproses menjadi "makan".
       
3. **Tokenisasi**:
       - Memecah teks yang sudah dibersihkan dan distemming menjadi token (kata-kata individu), yang dapat diolah lebih lanjut.
       
4. **Filtering Stopwords**:
       - Menghapus stopwords (kata-kata umum yang tidak penting dalam analisis teks seperti "yang", "dan", "di") menggunakan daftar stopwords dari
         bahasa Indonesia yang disediakan oleh NLTK. Ini bertujuan agar hanya kata-kata penting yang dipertahankan dalam teks.
       
5. **Penggabungan Kembali**:
       - Setelah proses tokenisasi dan filtering stopwords, token yang tersisa digabung kembali menjadi satu string teks yang siap digunakan
         dalam teknik analisis teks selanjutnya, seperti perhitungan TF-IDF atau analisis vektor.


#### Fungsi clean text

In [12]:
stopwords = stopwords.words('indonesian')
# save stopwords
with open('stopwords.txt', 'w') as f:
  for item in stopwords:
    f.write("%s\n" % item)

In [13]:
def cleansing(text):
    text = re.sub(r'[\s]+', ' ', text) # Menghapus tambahan spasi
    text = text.encode('ascii','ignore').decode('utf-8') # Menghapus karakter non-ASCII
    text = re.sub(r'[^\x00-\x7f]', r'', text) # Menghapus karakter non-printable
    text = re.sub(r'\d+', '', text) # Menghapus angka
    text = text.lower() # Mengubah teks menjadi huruf kecil
    text = re.sub(r'\b-\b', ' ', text) # Menghapus tanda hubung yang tidak berada di antara dua huruf
    text = re.sub(r'[^\w\s]+', ' ', text) # Menghapus tanda baca
    text = text.replace('\n','') #Menghapus baris baru
    return text

#### Fungsi Remove Stopword

In [14]:
def stopword(text):
    text = text.split() # Memisahkan teks menjadi kata-kata
    text = [word for word in text if word not in stopwords] # Menghapus stopwords dari teks
    text = ' '.join(text) # Menggabungkan kata-kata kembali menjadi teks
    return text

#### Fungsi Stemming

In [15]:
def stemming_indo(text):
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()
    text = stemmer.stem(text)
    return text

In [16]:
def preprocessing(text):
    clean_text = cleansing(text)
    stopword_text = stopword(clean_text)
    stemmed_text = stemming_indo(stopword_text)
    return stemmed_text

In [17]:
print(data["isi"][0])

Jakarta, CNBC Indonesia- PT Aditec Cakrawiyasa yang beralamat di Jalan Raya Serang, KM 15, Desa Talagasari, Kecamatan Cikupa, Kabupaten Tangerang, resmi dinyatakan pailit oleh Pengadilan Niaga, Pengadilan Negeri, Jakarta Pusat pada 22 Juli 2024. Hal ini berujung pada tindakan perusahaan yang melakukan Pemutusan Hubungan Kerja (PHK) kepada 511 karyawannya.
PT Aditec Cakrawiyasa telah dikenal sebagai produsen kompor gas, regulator dan selang dengan merek Quantum.
Direktur PT Aditec Cakrawiyasa Iwan Budi Buana mengungkapkan penyebab dari ambruknya perusahaan bukan terjadi serta merta langsung, melainkan karena proses yang sudah lama yakni menurunnya penjualan.
"PKPU (Penundaan Kewajiban Pembayaran Utang) 2019, kita coba jalan pasca-Covid, tapi jualan agak drop, sedangkan fix cost naik terus," ungkap Iwan kepada CNBC Indonesia di Pengadilan Negeri Jakarta Pusat, Senin (9/9/2024).
Imbas dari performa yang turun drastis, perusahaannya memiliki banyak tunggakan kepada banyak pihak. Salah satu

In [18]:
print(preprocessing(data["isi"][0]))

jakarta cnbc indonesia pt aditec cakrawiyasa alamat jalan raya serang km desa talagasari camat cikupa kabupaten tangerang resmi nyata pailit adil niaga adil negeri jakarta pusat juli ujung tindak usaha putus hubung kerja phk karyawannya pt aditec cakrawiyasa kenal produsen kompor gas regulator selang merek quantum direktur pt aditec cakrawiyasa iwan budi buana sebab ambruk usaha merta langsung proses turun jual pkpu tunda wajib bayar utang coba jalan pasca covid jual drop fix cost iwan cnbc indonesia adil negeri jakarta pusat senin imbas performa turun drastis usaha milik tunggak salah tuntut asal karyawannya kena phk angka beda tuntut karyawan klaim ya tunggak gaji hutang ya operasional henti jalan henti angka nggak tau persis hutang karyawan rp miliar kayak sangon gaji susah langsung pkpu beber persis total tunggak wajib sangkal hutang pinjam suplier total segituan tau persis berapa iwan sempat beda sekretaris wakil unit kerja puk aditec cakrawiyasa serikat kerja elektronik elektrik 

In [19]:
data["cleaned"] = data["isi"].apply(preprocessing)

KeyboardInterrupt: 

In [21]:
data = pd.read_csv("data_cleaned.csv")

In [22]:
data.head()

Unnamed: 0,isi,kategori,cleaned
0,"Jakarta, CNBC Indonesia-Dalam beberapa waktu t...",Research,jakarta cnbc indonesia butuh air galon indones...
1,"Jakarta, CNBC Indonesia - Presiden Republik In...",News,jakarta cnbc indonesia presiden republik indon...
2,"Jakarta, CNBC Indonesia -Tim nasional (timnas)...",Research,jakarta cnbc indonesia tim nasional timnas sep...
3,"Jakarta, CNBC Indonesia -Bisnis air mineral ke...",Research,jakarta cnbc indonesia bisnis air mineral kema...
4,"Jakarta, CNBC Indonesia-Ekonom senior Institut...",News,jakarta cnbc indonesia ekonom senior institute...


In [23]:
data["isi"][0]

'Jakarta, CNBC\xa0Indonesia-Dalam beberapa waktu terakhir, kebutuhan akan air galon di Indonesia menjadi sorotan utama, terutama dalam konteks dampaknya terhadap ekonomi rumah tangga kelas menengah.\r\nMenurut mantan Menteri Keuangan, Bambang Brodjonegoro, kebiasaan masyarakat Indonesia yang bergantung pada air kemasan, seperti air galon, secara tidak sadar telah menggerus pendapatan rumah tangga, khususnya di kalangan kelas menengah. Hal ini turut memperburuk kondisi ekonomi pasca-pandemi\xa0Covid-19, yang menyebabkan banyak kelas menengah turun ke kelas ekonomi yang lebih rendah.\r\nPertanyaan pun muncul, apakah Indonesia mampu mengandalkan air keran sebagai sumber air minum layak? Di beberapa negara maju, air keran yang bisa langsung diminum merupakan fasilitas umum yang umum tersedia, sehingga masyarakat tidak perlu mengeluarkan uang ekstra untuk membeli air kemasan.\r\nMeski begitu, hingga saat ini, di Indonesia, penggunaan air keran sebagai air minum masih belum umum. Namun, ada 

In [24]:
data["cleaned"][0]

'jakarta cnbc indonesia butuh air galon indonesia sorot utama konteks dampak ekonomi rumah tangga kelas tengah mantan menteri uang bambang brodjonegoro biasa masyarakat indonesia gantung air kemas air galon sadar gerus dapat rumah tangga kalang kelas tengah buruk kondisi ekonomi pasca pandemi covid 19 sebab kelas tengah turun kelas ekonomi rendah muncul indonesia andal air keran sumber air minum layak negara maju air keran langsung minum fasilitas sedia masyarakat keluar uang ekstra beli air kemas indonesia guna air keran air minum kembang signifikan kota negara ikn nusantara proyek salur air keran jalan menteri pupr basuki hadimuljono fasilitas reservoir instalasi olah air minum ipa paku distribusi air minum air bersih kawasan ikn upaya guna air keran ikn data konsumsi air minum kemas rumah tangga indonesia minta air minum kemas cenderung tingkat data badan pusat statistik bps fluktuasi persentase rumah tangga air minum kemas alami tingkat daerah kota picu tingkat sadar bersih kualita

### Perhitungan TF-IDF

### Mengacak Data

In [25]:
data.head()

Unnamed: 0,isi,kategori,cleaned
0,"Jakarta, CNBC Indonesia-Dalam beberapa waktu t...",Research,jakarta cnbc indonesia butuh air galon indones...
1,"Jakarta, CNBC Indonesia - Presiden Republik In...",News,jakarta cnbc indonesia presiden republik indon...
2,"Jakarta, CNBC Indonesia -Tim nasional (timnas)...",Research,jakarta cnbc indonesia tim nasional timnas sep...
3,"Jakarta, CNBC Indonesia -Bisnis air mineral ke...",Research,jakarta cnbc indonesia bisnis air mineral kema...
4,"Jakarta, CNBC Indonesia-Ekonom senior Institut...",News,jakarta cnbc indonesia ekonom senior institute...


In [26]:
data = data.sample(frac = 1, ignore_index=True)

In [27]:
data_train = data[:80]
data_test = data[80:]
data_train.head(10)

Unnamed: 0,isi,kategori,cleaned
0,"Jakarta, CNBC Indonesia-Proses pemilihan Paus ...",Research,jakarta cnbc indonesia proses pilih paus ritua...
1,"Jakarta, CNBC Indonesia -Menteri Koordinator B...",News,jakarta cnbc indonesia menteri koordinator bid...
2,"Jakarta, CNBC Indonesia- Political Strategy Gr...",News,jakarta cnbc indonesia political strategy grou...
3,"Jakarta, CNBC Indonesia -Wakil Menteri Keuanga...",News,jakarta cnbc indonesia wakil menteri uang i su...
4,"Jakarta, CNBC Indonesia -Tim nasional (timnas)...",Research,jakarta cnbc indonesia tim nasional timnas sep...
5,"Jakarta, CNBC Indonesia-Chinaperlahan mulai me...",News,jakarta cnbc indonesia chinaperlahan meninggal...
6,"Jakarta, CNBC Indonesia -Jelang berakhirnya ma...",News,jakarta cnbc indonesia jelang jabat oktober me...
7,"Jakarta, CNBC Indonesia -Presiden Joko Widodo ...",News,jakarta cnbc indonesia presiden joko widodo jo...
8,"Jakarta, CNBC Indonesia -Arus dana asing untuk...",Research,jakarta cnbc indonesia arus dana asing kali ca...
9,"Jakarta, CNBC Indonesia- Badan Legislasi (Bale...",News,jakarta cnbc indonesia badan legislasi baleg d...


In [28]:
def tfidf_vsm(data, kategori):
	tfidf = TfidfVectorizer()
	tfidf_matrix = tfidf.fit_transform(data)
	feature_names = tfidf.get_feature_names_out()
	
	df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)
	df_tfidf.insert(0, 'Kategori Berita', kategori.reset_index(drop=True))

	return tfidf, df_tfidf

tfidf_model, df_tfidf = tfidf_vsm(data_train['cleaned'], data_train['kategori'])

In [36]:
df_tfidf.head(10)

Unnamed: 0,Kategori Berita,00,000,00badan,00raker,00rapat,01,02,029,03,...,zamrud,zaner,zenix,zero,zimbabwe,zona,zonamegathrustbukanlah,zonamegathrusttersebut,zonamegathrustyang,zone
0,Research,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,News,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.045304,0.0,0.0,0.0,0.0,0.0,0.0
2,News,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,News,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Research,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.052372,0.0,0.0,0.0,0.0
5,News,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6,News,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,News,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,Research,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9,News,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [29]:
def model_tf_idf(data, model, kategori):
	tfidf_matrix = model.transform(data)
	feature_names = model.get_feature_names_out()
	
	df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)
	df_tfidf.insert(0, 'Kategori Berita', kategori.reset_index(drop=True))

	return df_tfidf

df_tfidf_test = model_tf_idf(data_test['cleaned'], tfidf_model, data_test['kategori'])

In [35]:
tfidf_model

In [30]:
df_tfidf_test.head()

Unnamed: 0,Kategori Berita,00,000,00badan,00raker,00rapat,01,02,029,03,...,zamrud,zaner,zenix,zero,zimbabwe,zona,zonamegathrustbukanlah,zonamegathrusttersebut,zonamegathrustyang,zone
0,News,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,Research,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,News,0.0,0.037161,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,News,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Research,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### Save Dataset

In [31]:
df_tfidf.to_csv("data_train_vsm.csv", index=False)
df_tfidf_test.to_csv("data_test_vsm.csv", index=False)

In [32]:
import pickle

In [33]:
with open('tfidf_model.pkl', 'wb') as f:
    pickle.dump(tfidf_model, f)