# TF-IDF & Vector Space Model

## Apa itu VSM (Vector Space Model)

Vector Space Model (VSM) adalah kerangka kerja matriks yang digunakan dalam temu kembali informasi dan pemrosesan bahasa alami (NLP) untuk merepresentasikan dan menganalisis data visual. VSM sangat penting dalam penggalian teks, pencarian dokumen, dan tugas-tugas pembelajaran mesin berbasis teks seperti klasifikasi dokumen, pencarian informasi, dan analisis kemiripan teks.

![image.png](https://i0.wp.com/spotintelligence.com/wp-content/uploads/2023/09/vector-space-model.jpg?resize=960%2C540&ssl=1)

Setiap dimensi berhubungan dengan term yang unik, sementara dokumen dan query dapat direpresentasikan sebagai vektor di dalam ruang tersebut.

## Term Frequency-Inverse Document Frequency (TF-IDF)

TF-IDF adalah singkatan dari Term Frequency Inverse Document Frequency. Hal ini dapat didefinisikan sebagai perhitungan seberapa relevan sebuah kata dalam kumpulan atau corpus terhadap sebuah teks. Nilai relevansi meningkat secara relatif terhadap berapa kali sebuah kata muncul di dalam teks, namun dikompensasi oleh frekuensi kata di dalam corpus (kumpulan data).

## Term Frequency

Pada dokumen d, frekuensi merepresentasikan jumlah kemunculan kata t. Oleh karena itu, kita dapat melihat bahwa frekuensi akan menjadi lebih relevan ketika sebuah kata muncul dalam teks, yang mana hal ini bersifat relatif. Karena urutan istilah tidak signifikan, kita dapat menggunakan vektor untuk mendeskripsikan teks dalam kumpulan model term. Untuk setiap istilah tertentu dalam teks, ada sebuah entri dengan nilai yang merupakan frekuensi term.

**tf(t,d) = count of t in d / number of words in d**

## Inverse Document Frequency

Pada dasarnya, ini menguji seberapa relevan kata tersebut. Tujuan utama dari pencarian ini adalah untuk menemukan dokumen yang sesuai dengan pencarian. Karena tf menganggap semua istilah sama pentingnya, maka frekuensi term tidak hanya dapat digunakan untuk mengukur bobot term dalam dokumen. Pertama, cari frekuensi dokumen dari suatu istilah t dengan menghitung jumlah dokumen yang mengandung term tersebut:

**idf(t) = log(N/ df(t))**

Penjelasan:<br>
**df(t)** = **N(t)**<br>
dimana<br>
**df(t)** = **Document frequency of a term t**<br>
**N(t)** = **Number of documents containing the term t**<br>

## TF-IDF (Term Frequency-Inverse Document Frequency)

**tf-idf(t, d) = tf(t, d) * idf(t)**

## Proses TF-IDF dan menjadikannya VSM (Vector Space Model)

### Import Library/Tool yang dibutuhkan

In [71]:
# Library untuk data manipulation
import pandas as pd
from tqdm import tqdm
import re
import string

# Library untuk text preprocessing
import nltk
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt_tab')

# Library untuk text vectorization/TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

[nltk_data] Downloading package stopwords to C:\Users\LAB
[nltk_data]     SISTER\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to C:\Users\LAB
[nltk_data]     SISTER\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


* **pandas** digunakan untuk membuat dataframe agar mudah dibaca.
* **tqdm** Untuk mentracking proses program.
* **re** (regular expression) digunakan untuk mengenali pola kata/kalimat.
* **nltk** (natural language toolkit) berfungsi untuk melakukan proses yang berkaitan dengan bahasa (teks).
* **sklearn** digunakan dalam pemrosesan data untuk kebutuhan machine learning atau data science. Dalam tugas ini, menggunakan TfidfTransformer untuk menghitung TF-IDF.
* **sastrawi** berfungsi untuk membersihkan mengurangi kata-kata imbuhan menjadi kata basic (sastrawi untuk stemming bahasa Indonesia).

### Import data berita CSV

In [72]:
data = pd.read_csv("data_100.csv")
data.columns = data.columns.str.strip()
data

Unnamed: 0,judul,isi,tanggal,kategori
0,"Putin Dukung Kamala Harris: Tawanya Menular, A...",Presiden Rusia Vladimir Putinbergurau bahwa di...,"Jumat, 06 Sep 2024 14:31 WIB",Internasional
1,"Tinggalkan RI, Paus Fransiskus Twit Perpisahan...",Pemimpin Gereja Katolik seluruh dunia Paus Fra...,"Jumat, 06 Sep 2024 14:01 WIB",Internasional
2,"Pamit ke Menag Yaqut di Bandara, Paus Fransisk...",Pemimpin Gereja Katolik seluruh dunia Paus Fra...,"Jumat, 06 Sep 2024 13:30 WIB",Internasional
3,"FOTO: Sampai Jumpa Lagi, Paus Fransiskus ...",...,"Jumat, 06 Sep 2024 13:00 WIB",Internasional
4,Paus Fransiskus Pilih Nasi Goreng Jadi Menu di...,"Pemimpin Gereja Katolik seluruh dunia, Paus Fr...","Jumat, 06 Sep 2024 12:24 WIB",Internasional
...,...,...,...,...
95,Rekayasa Lalin saat Paus Fransiskus Misa Akbar...,Kepolisian melakukan rekayasa lalu lintas di s...,"Kamis, 05 Sep 2024 07:45 WIB",Nasional
96,VIDEO: Kaesang Bungkam saat Ditanya soal Jet P...,Ketua Umum PSI Kaesang Pangarep irit bicara sa...,"Kamis, 05 Sep 2024 07:33 WIB",Nasional
97,"Misa Akbar Paus di GBK Hari Ini, Pemprov Imbau...",Penjabat (Pj) DKI JakartaHeru Budi Hartono men...,"Kamis, 05 Sep 2024 07:19 WIB",Nasional
98,"Nyaris Adu Jotos dengan Silfester Matutina, Ch...",Juru Bicara PDIPChico Hakim menjelaskan soal m...,"Kamis, 05 Sep 2024 07:15 WIB",Nasional


Import data berita csv yang telah disimpan sebelumnya,<br>
dan membersihkan whitespace pada col header.

### Mengacak data

In [73]:
data = data.sample(frac = 1, ignore_index=True)

Mengacak data yang sebelumnya berdasarkan kategori 50:50, menjadi acak-acak.

### Fungsi clean_text()

In [74]:
def clean_text(text):
	text = re.sub(r'((www\.[^\s]+)|(https?://[^\s]+))', ' ', text) # Menghapus https* and www*
	text = re.sub(r'@[^\s]+', ' ', text) # Menghapus username
	text = re.sub(r'[\s]+', ' ', text) # Menghapus tambahan spasi
	text = re.sub(r'#([^\s]+)', ' ', text) # Menghapus hashtags
	text = re.sub(r'rt', ' ', text) # Menghapus retweet
	text = text.translate(str.maketrans("","",string.punctuation)) # Menghapus tanda baca
	text = re.sub(r'\d', ' ', text) # Menghapus angka
	text = text.lower()
	text = text.encode('ascii','ignore').decode('utf-8') #Menghapus ASCII dan unicode
	text = re.sub(r'[^\x00-\x7f]',r'', text)
	text = text.replace('\n','') #Menghapus baris baru
	text = text.strip()
	return text

Fungsi ini untuk membersihkan text, lebih tepatnya membersihkan teks seperti; menghapus hastag, unicode, dsb.

### Fungsi stemming_indo()

In [75]:
def stemming_indo(text):
	factory = StemmerFactory()
	stemmer = factory.create_stemmer()
	text = ' '.join(stemmer.stem(word) for word in text)
	return text

Fungsi ini digunakan untuk menstemming atau membersihkan kata seperti:

katanya = kata<br>
menggunakan = guna

### Fungsi clean_stopword()

In [76]:
def clean_stopword(tokens):
	listStopword =  set(stopwords.words('indonesian'))
	removed = []
	for t in tokens:
		if t not in listStopword:
			removed.append(t)
	return removed

Fungsi untuk membuang kata yang tidak digunakan seperti:

di, dan, dsb.

### Memisahkan data train & test

In [77]:
training = data.iloc[:80]
testing = data.iloc[80:]
print(len(training))
print(len(testing))
training

80
20


Unnamed: 0,judul,isi,tanggal,kategori
0,Anggota TNI Diperiksa Denpom Usai Teror Rumah ...,AnggotaTNI yang diduga melakukan penyerangan d...,"Kamis, 05 Sep 2024 12:54 WIB",Nasional
1,FOTO: Kunjungan Bersejarah Paus Fransiskus di ...,...,"Kamis, 05 Sep 2024 19:07 WIB",Internasional
2,Pengurus Istiqlal Jelaskan Paus Fransiskus Tak...,Wakil Kepala Bidang Penyelenggara Peribadatan ...,"Kamis, 05 Sep 2024 17:03 WIB",Internasional
3,Mahfud Bandingkan Dugaan Gratifikasi Kaesang d...,"Mantan Menteri Koordinator Bidang Politik, Huk...","Kamis, 05 Sep 2024 13:29 WIB",Nasional
4,Jokowi: Umat Katolik RI Sukacita Misa Suci Ber...,Presiden Joko Widodo(Jokowi) menyebut umat Kat...,"Kamis, 05 Sep 2024 17:52 WIB",Internasional
...,...,...,...,...
75,20 Anggota DPRD Bangkalan-Sampang Gadai SK unt...,Sebanyak 20 anggota Dewan Perwakilan Rakyat Da...,"Kamis, 05 Sep 2024 19:57 WIB",Nasional
76,Apakah KPK Bisa Usut Dugaan Gratifikasi Jet Pr...,Ketua Umum Partai Solidaritas Indonesia (PSI) ...,"Kamis, 05 Sep 2024 12:41 WIB",Nasional
77,VIDEO: Kaesang Bungkam saat Ditanya soal Jet P...,Ketua Umum PSI Kaesang Pangarep irit bicara sa...,"Kamis, 05 Sep 2024 07:33 WIB",Nasional
78,Gazalba Saleh Dituntut 15 Tahun Bui di Kasus G...,Hakim agung nonaktif Gazalba Saleh dituntut de...,"Kamis, 05 Sep 2024 14:09 WIB",Nasional


Memisahkan data untuk training dan juga testing, yaitu perbandingan 80:20 dengan menggunakan data yang sudah diacak sebelumnya.

### Proses preprosesing text setiap dokumen

In [78]:
def preprocess_text(content):
	result = []
	for text in tqdm(content):
		cleaned_text = clean_text(text)
		tokens = nltk.tokenize.word_tokenize(cleaned_text)
		cleaned_stopword = clean_stopword(tokens)
		stemmed_text = stemming_indo(cleaned_stopword)
		result.append(stemmed_text)
	return result

train = preprocess_text(training['isi'])
test = preprocess_text(testing['isi'])

  0%|          | 0/80 [00:00<?, ?it/s]

100%|██████████| 80/80 [00:01<00:00, 40.99it/s]
100%|██████████| 20/20 [00:00<00:00, 41.91it/s]


Proses untuk mempersiapkan teks pada setiap dokumen yang diproses menggunakan fungsi-fungsi yang sudah dibuat sebelumnya, yang selanjutnya akan di tf-idf dan vsm.

### Proses TF-IDF dan pembuatan VSM

In [79]:
def tfidf_vsm(data, original_data):
	tfidf = TfidfVectorizer()
	tfidf_matrix = tfidf.fit_transform(data)
	feature_names = tfidf.get_feature_names_out()
	df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)
	df_tfidf.insert(0, 'Kategori Berita', original_data['kategori'])
	return df_tfidf

df_train = tfidf_vsm(train, training)
df_test = tfidf_vsm(test, testing)

Proses untuk membuat TF-IDF dan membentuk VSM dalam dataframe.

## Save CSV

In [80]:
df_train.to_csv("data_train.csv", index=False)
df_train.to_csv("data_test.csv", index=False)