# Vector Space Model

Vector Space Model (VSM) adalah pendekatan yang menggunakan vektor untuk merepresentasikan setiap kata dalam suatu ruang dimensi. Dalam VSM, dokumen dilihat sebagai vektor yang memiliki panjang (magnitudo) dan arah. Setiap kata dalam dokumen diwakili oleh sebuah dimensi dalam ruang vektor. Relevansi dokumen terhadap kueri dihitung berdasarkan kesamaan antara vektor dokumen dan vektor kueri.

VSM mendukung pencocokan parsial dengan menetapkan bobot non-biner pada kata-kata dalam dokumen dan kueri. Bobot tersebut digunakan untuk mengukur kesamaan antara dokumen yang tersimpan dan kueri pengguna. Dokumen yang ditemukan diurutkan berdasarkan tingkat kemiripannya, sehingga dokumen yang paling relevan ditampilkan lebih akurat sesuai dengan kebutuhan pengguna.

Berikut secara rinci langkah-langkah dan konsep di balik VSM:

### 1. **Dokumen dan Kueri sebagai Vektor**
Pada dasarnya, setiap dokumen atau kueri direpresentasikan sebagai sebuah vektor. Namun, vektor ini tidak seperti vektor geometris biasa, tetapi memiliki dimensi sebanyak jumlah kata unik (vocabulary) dalam koleksi dokumen. Setiap dimensi dalam vektor mewakili satu kata atau istilah dari koleksi.

- **Dimensi Vektor**: Jika kita memiliki sebuah kumpulan dokumen yang terdiri dari 1.000 kata unik, maka setiap dokumen dan kueri akan direpresentasikan oleh vektor dengan 1.000 dimensi.
- **Isi Vektor**: Setiap elemen dalam vektor merepresentasikan bobot dari sebuah kata dalam dokumen tertentu. Sebagai contoh, jika kata "AI" muncul dalam dokumen, maka elemen yang merepresentasikan kata "AI" akan memiliki nilai lebih besar dari nol, sedangkan kata-kata yang tidak muncul akan bernilai nol.

Contoh representasi sederhana:
- Dokumen 1: "Belajar AI adalah masa depan"
- Dokumen 2: "AI bisa menggantikan manusia"
- Kueri: "AI dan masa depan"

Vektor untuk Dokumen 1 mungkin tampak seperti:
`(1, 1, 1, 1, 0)` untuk kata-kata `("Belajar", "AI", "adalah", "masa", "depan")`, di mana angka 1 menunjukkan bahwa kata tersebut muncul sekali.

### 2. **Pembobotan Kata (Term Weighting)**
Dalam VSM, tidak semua kata memiliki nilai yang sama. Untuk membuat model lebih efisien dalam menangkap kata-kata penting, VSM biasanya menggunakan teknik **pembobotan**. Teknik yang paling umum adalah **TF-IDF (Term Frequency - Inverse Document Frequency)**. TF-IDF membantu menghitung seberapa penting sebuah kata dalam sebuah dokumen dibandingkan dengan seluruh kumpulan dokumen.

- **Term Frequency (TF)**: Ini adalah jumlah kemunculan sebuah kata dalam dokumen. Semakin sering sebuah kata muncul, semakin besar bobot TF-nya. Namun, sering kali kita menggunakan versi termodifikasi seperti TF relatif (jumlah kemunculan kata dibagi total kata dalam dokumen).
- **Inverse Document Frequency (IDF)**: Kata yang sering muncul di seluruh dokumen (misalnya "adalah" atau "dan") biasanya kurang informatif, sehingga diberi bobot lebih rendah. IDF membantu mengurangi bobot kata-kata yang terlalu umum dengan menghitung kebalikan dari frekuensi dokumen yang mengandung kata tersebut.

Formula umum untuk TF-IDF:

$$\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \log\left(\frac{N}{\text{DF}(t)}\right)$$

Di mana:
- $(t)$ adalah kata (term)
- $(d)$ adalah dokumen
- $(N)$ adalah jumlah total dokumen
- $(DF(t))$ adalah jumlah dokumen yang mengandung kata \(t\)

Dengan TF-IDF, kata yang unik untuk sebuah dokumen (misalnya istilah teknis atau nama produk) akan memiliki bobot lebih tinggi dibandingkan dengan kata-kata yang umum di seluruh dokumen.

### 3. **Menghitung Kesamaan Antar Dokumen**
Setelah setiap dokumen dan kueri direpresentasikan sebagai vektor, kita bisa menghitung **kesamaan** antar dua vektor (dokumen atau dokumen-kueri). Salah satu metode paling umum adalah **Cosine Similarity**.

- **Cosine Similarity**: Ini adalah ukuran yang menghitung sudut antara dua vektor dalam ruang multidimensi. Semakin kecil sudutnya, semakin dekat atau mirip dua vektor tersebut. Nilai cosine similarity berkisar dari 0 (tidak mirip sama sekali) hingga 1 (sangat mirip).

Formula cosine similarity:

$$ \text{cosine\_similarity}(A, B) = \frac{A \cdot B}{||A|| \cdot ||B||} $$

Di mana:
- $(A \cdot B)$ adalah dot product dari vektor A dan B (hasil perkalian elemen-elemen vektor yang sesuai)
- $(||A||)$ dan $(||B||)$ adalah norma (panjang) dari vektor A dan B

Dengan menghitung cosine similarity, kita dapat mengetahui seberapa mirip dokumen dengan kueri. Jika nilai cosine similarity tinggi, berarti dokumen tersebut lebih relevan dengan kueri, sehingga dokumen tersebut dapat ditempatkan di urutan yang lebih tinggi dalam hasil pencarian.

### 4. **Pengurutan Dokumen**
Setelah kita menghitung cosine similarity antara kueri dan setiap dokumen dalam koleksi, dokumen-dokumen tersebut bisa diurutkan berdasarkan nilai similarity dari yang tertinggi ke yang terendah. Hasil ini bisa digunakan dalam **sistem pencarian** untuk menampilkan dokumen yang paling relevan di posisi teratas.

### 5. **Keuntungan dan Keterbatasan VSM**
**Keuntungan**:
- **Sederhana dan Efisien**: VSM mudah diimplementasikan dan cukup efisien dalam menangani koleksi dokumen besar.
- **Penanganan Sinonim dan Polisemik Terbatas**: Meski VSM sederhana, ia tidak menangani masalah sinonim (kata-kata berbeda dengan makna sama) dan polisemik (kata yang sama dengan makna berbeda) dengan baik.

**Keterbatasan**:
- **Kata-Kata Independen**: VSM mengasumsikan bahwa kata-kata dalam dokumen tidak memiliki hubungan satu sama lain, sehingga konteks sering kali hilang. Misalnya, frase "tidak setuju" akan diperlakukan sebagai dua kata terpisah, meskipun maknanya berubah ketika digabungkan.
- **Dimensi yang Tinggi**: Ketika bekerja dengan kumpulan dokumen besar, jumlah kata yang unik bisa sangat banyak, menyebabkan vektor memiliki dimensi yang sangat tinggi, yang dapat menyebabkan masalah performa.

### Contoh Sederhana:

Misalkan kita memiliki tiga dokumen:
1. "Belajar AI adalah masa depan"
2. "AI bisa menggantikan manusia"
3. "Manusia belajar dari AI masa depan"

Jika kuerinya adalah "belajar AI", kita bisa menghitung cosine similarity antara kueri dan setiap dokumen. Dokumen dengan cosine similarity tertinggi adalah dokumen yang paling relevan dengan kueri.

### Kesimpulan
Vector Space Model (VSM) adalah pendekatan sederhana namun sangat efektif untuk merepresentasikan dokumen dan kueri dalam ruang vektor, memungkinkan pencarian dan pengurutan dokumen berdasarkan kesamaan konten. Meskipun ada beberapa keterbatasan, VSM masih digunakan secara luas dalam sistem pencarian informasi, terutama ketika dipadukan dengan teknik pembobotan seperti TF-IDF.

# Implementasi

## Library yang digunakan

## Implementasi Code

## Penjelasan Code