# Modelling Vector Space Model

## Apa itu Vector Space Model

Vector Space Model (VSM) adalah model matematika yang digunakan untuk merepresentasikan dokumen teks sebagai vektor dari identifikator (seperti kata-kata atau token). Model ini adalah bagian fundamental dalam sistem informasi pencarian dan teknik pemrosesan bahasa alami untuk menilai dan mengurutkan dokumen berdasarkan relevansinya terhadap suatu query.

### Konsep Dasar

Dalam VSM, setiap dimensi vektor mewakili sebuah term (kata) yang unik dalam dokumen. Nilai dalam vektor ini bisa merupakan frekuensi kemunculan kata, atau bobot yang lebih kompleks seperti TF-IDF, yang menggabungkan frekuensi kata dalam dokumen (TF) dan kebalikan frekuensi dokumen (IDF). Setiap dokumen direpresentasikan sebagai titik dalam ruang vektor ini.

### Kegunaan

Model ini sangat berguna dalam sistem pencarian dan pengambilan informasi karena memungkinkan operasi seperti pencarian kecocokan dan perankingan dilakukan secara matematis. VSM memfasilitasi pencocokan query pencarian dengan koleksi dokumen melalui perhitungan kedekatan vektor, menggunakan teknik seperti cosine similarity.

### Keunggulan

- **Flexibilitas**: VSM memungkinkan penyertaan berbagai metode penghitungan bobot selain frekuensi term, seperti TF-IDF, yang meningkatkan efektivitas model dalam menghadapi isu seperti kata-kata yang sangat umum yang muncul di banyak dokumen.
- **Efisiensi**: Meskipun representasi vektor dapat menjadi sangat besar, teknik seperti sparse matrix operations memungkinkan pemrosesan yang efisien.
- **Kemampuan Komparatif**: Dengan merepresentasikan dokumen sebagai vektor, mudah untuk mengukur kesamaan antar dokumen.

### Keterbatasan

- **Semantik**: VSM tidak memperhitungkan konteks dan makna semantik dari kata-kata, yang bisa mengakibatkan dokumen yang sebenarnya berkaitan tidak dikenali sebagai relevan.
- **Sinonim dan Polisemi**: Kata-kata dengan makna ganda atau sinonim mungkin tidak diproses dengan efektif, karena model ini berfokus pada kata-kata sebagai entitas independen tanpa mempertimbangkan hubungan semantiknya.

## Konsep TF-IDF

Metode  Term  Frequency-Inverse Document Frequency (TF-IDF) adalah salah satu  teknik  representasi  teks yang mengonversi kata-kata menjadi  nilai  numerik  berdasarkan  seberapa  sering kata tersebut  muncul  dalam  teks  serta  seberapa  umumnya kata tersebut  dalam  kumpulan  dokumen yang tersedia. Bobot  numerik yang dihasilkan oleh metode  ini  sering  disebut  sebagai  bobot TF-IDF.

### Term Frequency (TF)

**Term Frequency**: Dalam  dokumen d, frekuensi  merepresentasikan  jumlah  kemunculan kata t. Oleh karena  itu, kita  dapat  melihat  bahwa  frekuensi  menjadi  lebih  relevan  ketika  sebuah kata muncul di dalam  teks, yang mana hal  ini  rasional. Karena urutan  istilah  tidak  signifikan, kita  dapat  menggunakan  vektor  untuk  menggambarkan  teks  dalam  kantong model istilah. Untuk  setiap  istilah  tertentu  dalam  teks, ada  sebuah  entri  dengan  nilai yang merupakan  frekuensi  istilah. Bobot  sebuah  istilah yang muncul  dalam  sebuah  dokumen  secara  sederhana  sebanding  dengan  frekuensi  istilah  tersebut


$$
    tf(t, d) = \frac{\text{jumalah } t \text{ dalam } d}{\text{jumlah kata dalam } d}
$$



**Dokument Frequency**: mengukur  seberapa  umumnya  suatu kata terjadi di seluruh  koleksi  dokumen. Konsep  ini  mirip  dengan Term Frequency (TF), namun  perbedaannya  terletak pada bagaimana  kita  menghitung  kemunculan  suatu kata. Di TF, kita  melihat  seberapa  sering kata muncul  dalam  satu  dokumen  tertentu, sedangkan di DF, kita  melihat  berapa  banyak  dokumen yang mengandung kata tersebut di dalam  keseluruhan  koleksi  dokumen. Jadi, Document Frequency (DF) adalah  jumlah  dokumen yang memuat  suatu kata.

$$
    df(t) = \text{kemunculan } t \text{ dalam } dokumen 
$$


### Inverse Document Frequency (IDF)

**Inverse Document Frequency (IDF)**: mengevaluasi tingkat relevansi suatu kata dalam konteks pencarian. Ketika mencari informasi, tujuan utama adalah menemukan dokumen yang paling sesuai dengan permintaan pengguna. Mengingat bahwa Term Frequency (TF) memperlakukan semua kata dengan nilai yang sama, frekuensi kata itu sendiri tidak cukup untuk menilai  bobot istilah dalam sebuah dokumen. IDF pertama-tama mencari frekuensi kemunculan dokumen untuk suatu kata dengan menghitung jumlah dokumen yang mengandung kata tersebut.

$$
    df(t) = N(t)
$$

$$
    df(t) = \text{Frekuensi dokumen dari suatu istilah t}
$$

$$
    N(t) = \text{Jumlah } dokumen \text{ yang mengandung istilah } t
$$

### TF-IDF

Term Frequency adalah jumlah kemunculan suatu istilah dalam satu dokumen saja, sedangkan Document Frequency adalah jumlah dokumen terpisah tempat istilah tersebut muncul. Namun, frekuensi ini bergantung pada seluruh korpus. IDF merupakan jumlah dokumen dalam korpus yang dipisahkan oleh frekuensi teks. Dengan kata lain, IDF mengukur seberapa umum atau langka suatu kata dalam seluruh koleksi dokumen.

$$
    idf(t) = \frac{N}{df(t)}=\frac{N}{N(t)}
$$

$$
    idf(t) = log_2 \frac{N}{df(t)}
$$

Maka dari itu rumus dari TF * IDF adalah sebagai berikut:

$$
    tf-idf(t, d) = tf(t, d) * idf(t)
$$

## Modelling SVM

### Prepocessing

In [26]:
# import library yang dibutuhkan 
import pandas as pd
import re
import tqdm
import nltk
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [2]:
df = pd.read_csv("data-artikel-cnbc.csv")

In [3]:
df.head()

Unnamed: 0,judul,tanggal,isi,url,kategori
0,Bukan Kaleng-kaleng! Nilai Skuad Timnas Indone...,09 September 2024 19:30,"Jakarta, CNBC Indonesia -Kedatangan pemain-pem...",https://www.cnbcindonesia.com/research/2024090...,Research
1,"Aset Bank Mandiri Tembus Rp 2.200 T, Paling Ju...",09 September 2024 19:05,"Jakarta, CNBC Indonesia -Sepanjang paruh perta...",https://www.cnbcindonesia.com/research/2024090...,Research
2,Emas Meredup Saat Suku Bunga The Fed Mau Turun...,09 September 2024 18:10,"Jakarta,CNBC Indonesia -Harga emas dunia melem...",https://www.cnbcindonesia.com/research/2024090...,Research
3,"Tetangga RI Dihantam 'Bencana' Iklim, Harga Ba...",09 September 2024 15:55,"Jakarta, CNBC Indonesia -Indeks Harga Konsumen...",https://www.cnbcindonesia.com/research/2024090...,Research
4,"Tantama Hingga Perwira, Ini Urutan Lengkap Pan...",09 September 2024 14:35,"Jakarta, CNBC Indonesia-Tentara Nasional Indon...",https://www.cnbcindonesia.com/research/2024090...,Research


In [10]:
# hanya memilih kolom judul dan kategori
df = df[['judul', 'kategori']]
df.head()

Unnamed: 0,judul,kategori
0,Bukan Kaleng-kaleng! Nilai Skuad Timnas Indone...,Research
1,"Aset Bank Mandiri Tembus Rp 2.200 T, Paling Ju...",Research
2,Emas Meredup Saat Suku Bunga The Fed Mau Turun...,Research
3,"Tetangga RI Dihantam 'Bencana' Iklim, Harga Ba...",Research
4,"Tantama Hingga Perwira, Ini Urutan Lengkap Pan...",Research


In [11]:
# Filter data untuk kategori "Research"
research = df[df["kategori"] == "Research"].sample(n=50, random_state=42)
news = df[df["kategori"] == "News"].sample(n=50, random_state=42)

In [12]:
# Gabungkan keduanya tanpa mempertahankan indeks
data = pd.concat([research, news], ignore_index=True)

In [14]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   judul     100 non-null    object
 1   kategori  100 non-null    object
dtypes: object(2)
memory usage: 1.7+ KB


In [18]:
stopwords = stopwords.words('indonesian')

In [22]:
def cleansing(text):
    text = re.sub(r'[^\w\s-]', ' ', text) # Menghapus karakter yang bukan huruf, angka, spasi, atau tanda minus
    text = text.encode('ascii', 'ignore').decode('utf-8') # Menghapus karakter non-ASCII dengan mengabaikan karakter yang tidak bisa di-encode ke ASCII
    text = re.sub(r'[^\x00-\x7f]', r'', text) # Menghapus semua karakter non-ASCII (karakter di luar rentang 0-127 dalam kode ASCII)
    text = text.lower() # Mengubah teks menjadi huruf kecil
    text = text.split() # Memecah teks menjadi daftar kata-kata
    text = [word for word in text if word not in stopwords] # Setelah dipecah dicek apakah masuk stopword atau tidak
    text = ' '.join(text) # Menggabungkan kembali daftar kata-kata menjadi satu string yang dipisahkan oleh spasi
    return text

In [19]:
def sastrawistemmer(text):
    factory = StemmerFactory()
    st = factory.create_stemmer()
    text = ' '.join(st.stem(word) for word in tqdm(text.split()) if word in text)
    return text

In [20]:
df.head()

Unnamed: 0,judul,kategori
0,Bukan Kaleng-kaleng! Nilai Skuad Timnas Indone...,Research
1,"Aset Bank Mandiri Tembus Rp 2.200 T, Paling Ju...",Research
2,Emas Meredup Saat Suku Bunga The Fed Mau Turun...,Research
3,"Tetangga RI Dihantam 'Bencana' Iklim, Harga Ba...",Research
4,"Tantama Hingga Perwira, Ini Urutan Lengkap Pan...",Research


In [30]:
def cleansing(text):
    # text = re.sub(r'[^a-zA-Z\s]', '', text, re.I|re.A)
    text = text.encode('ascii','ignore').decode('utf-8')
    text = re.sub(r'[^\x00-\x7f]',r'', text)
    text = re.sub(r'[^\w\s]','',text)
    text = text.lower()
    text = text.split()
    text = [word for word in text if word not in stopwords.words('indonesian')]
    text = ' '.join(text)
    return text

In [34]:
df["cleansing"] = df["judul"].apply(clean_and_process_text)

In [33]:
def clean_and_process_text(text):
    # Langkah pembersihan teks
    text = re.sub(r'((www\.[^\s]+)|(https?://[^\s]+))', ' ', text)  # Menghapus https* dan www*
    text = re.sub(r'@[^\s]+', ' ', text)  # Menghapus username
    text = re.sub(r'[\s]+', ' ', text)  # Menghapus tambahan spasi
    text = re.sub(r'#([^\s]+)', ' ', text)  # Menghapus hashtags
    text = re.sub(r'rt', ' ', text)  # Menghapus retweet
    text = re.sub(r'[^\w\s]+', ' ', text)  # Menghapus tanda baca
    text = re.sub(r'\d', ' ', text)  # Menghapus angka
    text = text.lower()  # Mengubah teks menjadi huruf kecil
    text = text.encode('ascii', 'ignore').decode('utf-8')  # Menghapus karakter non-ASCII
    text = re.sub(r'[^\x00-\x7f]', r'', text)  # Menghapus karakter non-ASCII yang tersisa
    text = text.replace('\n', '')  # Menghapus baris baru

    # Langkah stemming
    stemmer = StemmerFactory().create_stemmer()
    stemmed_text = stemmer.stem(text)

    # Tokenisasi
    tokens = nltk.tokenize.word_tokenize(stemmed_text)

    # Menghapus stopwords menggunakan bahasa Indonesia
    stop_words = set(stopwords.words('indonesian'))
    filtered_words = [word for word in tokens if word not in stop_words]

    # Gabungkan kembali kata-kata yang sudah difilter menjadi teks
    processed_text = ' '.join(filtered_words)
    
    return processed_text

In [35]:
df.head()

Unnamed: 0,judul,kategori,cleansing
0,Bukan Kaleng-kaleng! Nilai Skuad Timnas Indone...,Research,kaleng kaleng nilai skuad timnas indonesia mew...
1,"Aset Bank Mandiri Tembus Rp 2.200 T, Paling Ju...",Research,aset bank mandiri tembus rp t jumbo indonesia
2,Emas Meredup Saat Suku Bunga The Fed Mau Turun...,Research,emas redup suku bunga the fed turun
3,"Tetangga RI Dihantam 'Bencana' Iklim, Harga Ba...",Research,tetangga ri hantam bencana iklim harga barang ...
4,"Tantama Hingga Perwira, Ini Urutan Lengkap Pan...",Research,tantama perwira urut lengkap pangkat tni


#### Tokenisasi

#### Normalisasi

#### Stopword Removal

#### Stemming

### Perhitungan TF-IDF

In [39]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Fungsi untuk membuat Vector Space Model menggunakan TF-IDF
def create_vsm(docs):
    # Inisialisasi TF-IDF vectorizer
    vectorizer = TfidfVectorizer()

    # Transformasi dokumen menjadi vektor TF-IDF
    tfidf_matrix = vectorizer.fit_transform(docs)

    # Mendapatkan fitur (kata-kata yang diambil oleh vectorizer)
    feature_names = vectorizer.get_feature_names_out()

    # Mengubah hasil TF-IDF menjadi DataFrame
    df_vsm = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)

    return df_vsm

# Asumsikan df["cleansing"] sudah berisi teks yang sudah dibersihkan dan diproses
# Contoh: df["cleansing"] = df["text"].apply(clean_and_process_text)

# Ambil teks dari kolom df["cleansing"] untuk digunakan dalam VSM
docs = df["cleansing"].tolist()

# Buat Vector Space Model dan simpan ke dalam DataFrame
vsm_df = create_vsm(docs)

# Tampilkan hasil
import ace_tools as tools 
tools.display_dataframe_to_user(name="Vector Space Model DataFrame", dataframe=vsm_df)


ModuleNotFoundError: No module named 'ace_tools'

In [40]:
vsm_df

Unnamed: 0,aali,abad,acak,ace,aceh,acme,adat,ades,adhi,adopsi,...,whoosh,wib,wilayah,wisesa,wskt,xxi,yellen,yordania,yoy,zulhas
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
393,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
394,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
395,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
396,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
