# Modelling Vector Space Model

## Apa itu Vector Space Model

Vector Space Model (VSM) adalah model matematika yang digunakan untuk merepresentasikan dokumen teks sebagai vektor dari identifikator (seperti kata-kata atau token). Model ini adalah bagian fundamental dalam sistem informasi pencarian dan teknik pemrosesan bahasa alami untuk menilai dan mengurutkan dokumen berdasarkan relevansinya terhadap suatu query.

### Konsep Dasar

Dalam VSM, setiap dimensi vektor mewakili sebuah term (kata) yang unik dalam dokumen. Nilai dalam vektor ini bisa merupakan frekuensi kemunculan kata, atau bobot yang lebih kompleks seperti TF-IDF, yang menggabungkan frekuensi kata dalam dokumen (TF) dan kebalikan frekuensi dokumen (IDF). Setiap dokumen direpresentasikan sebagai titik dalam ruang vektor ini.

### Kegunaan

Model ini sangat berguna dalam sistem pencarian dan pengambilan informasi karena memungkinkan operasi seperti pencarian kecocokan dan perankingan dilakukan secara matematis. VSM memfasilitasi pencocokan query pencarian dengan koleksi dokumen melalui perhitungan kedekatan vektor, menggunakan teknik seperti cosine similarity.

### Keunggulan

- **Flexibilitas**: VSM memungkinkan penyertaan berbagai metode penghitungan bobot selain frekuensi term, seperti TF-IDF, yang meningkatkan efektivitas model dalam menghadapi isu seperti kata-kata yang sangat umum yang muncul di banyak dokumen.
- **Efisiensi**: Meskipun representasi vektor dapat menjadi sangat besar, teknik seperti sparse matrix operations memungkinkan pemrosesan yang efisien.
- **Kemampuan Komparatif**: Dengan merepresentasikan dokumen sebagai vektor, mudah untuk mengukur kesamaan antar dokumen.

### Keterbatasan

- **Semantik**: VSM tidak memperhitungkan konteks dan makna semantik dari kata-kata, yang bisa mengakibatkan dokumen yang sebenarnya berkaitan tidak dikenali sebagai relevan.
- **Sinonim dan Polisemi**: Kata-kata dengan makna ganda atau sinonim mungkin tidak diproses dengan efektif, karena model ini berfokus pada kata-kata sebagai entitas independen tanpa mempertimbangkan hubungan semantiknya.

## Konsep TF-IDF

Metode  Term  Frequency-Inverse Document Frequency (TF-IDF) adalah salah satu  teknik  representasi  teks yang mengonversi kata-kata menjadi  nilai  numerik  berdasarkan  seberapa  sering kata tersebut  muncul  dalam  teks  serta  seberapa  umumnya kata tersebut  dalam  kumpulan  dokumen yang tersedia. Bobot  numerik yang dihasilkan oleh metode  ini  sering  disebut  sebagai  bobot TF-IDF.

### Term Frequency (TF)

**Term Frequency**: Dalam  dokumen d, frekuensi  merepresentasikan  jumlah  kemunculan kata t. Oleh karena  itu, kita  dapat  melihat  bahwa  frekuensi  menjadi  lebih  relevan  ketika  sebuah kata muncul di dalam  teks, yang mana hal  ini  rasional. Karena urutan  istilah  tidak  signifikan, kita  dapat  menggunakan  vektor  untuk  menggambarkan  teks  dalam  kantong model istilah. Untuk  setiap  istilah  tertentu  dalam  teks, ada  sebuah  entri  dengan  nilai yang merupakan  frekuensi  istilah. Bobot  sebuah  istilah yang muncul  dalam  sebuah  dokumen  secara  sederhana  sebanding  dengan  frekuensi  istilah  tersebut


$$
    tf(t, d) = \frac{\text{jumalah } t \text{ dalam } d}{\text{jumlah kata dalam } d}
$$



**Dokument Frequency**: mengukur  seberapa  umumnya  suatu kata terjadi di seluruh  koleksi  dokumen. Konsep  ini  mirip  dengan Term Frequency (TF), namun  perbedaannya  terletak pada bagaimana  kita  menghitung  kemunculan  suatu kata. Di TF, kita  melihat  seberapa  sering kata muncul  dalam  satu  dokumen  tertentu, sedangkan di DF, kita  melihat  berapa  banyak  dokumen yang mengandung kata tersebut di dalam  keseluruhan  koleksi  dokumen. Jadi, Document Frequency (DF) adalah  jumlah  dokumen yang memuat  suatu kata.

$$
    df(t) = \text{kemunculan } t \text{ dalam } dokumen 
$$


### Inverse Document Frequency (IDF)

**Inverse Document Frequency (IDF)**: mengevaluasi tingkat relevansi suatu kata dalam konteks pencarian. Ketika mencari informasi, tujuan utama adalah menemukan dokumen yang paling sesuai dengan permintaan pengguna. Mengingat bahwa Term Frequency (TF) memperlakukan semua kata dengan nilai yang sama, frekuensi kata itu sendiri tidak cukup untuk menilai  bobot istilah dalam sebuah dokumen. IDF pertama-tama mencari frekuensi kemunculan dokumen untuk suatu kata dengan menghitung jumlah dokumen yang mengandung kata tersebut.

$$
    df(t) = N(t)
$$

$$
    df(t) = \text{Frekuensi dokumen dari suatu istilah t}
$$

$$
    N(t) = \text{Jumlah } dokumen \text{ yang mengandung istilah } t
$$

### TF-IDF

Term Frequency adalah jumlah kemunculan suatu term dalam satu dokumen saja, sedangkan Document Frequency adalah jumlah dokumen terpisah tempat istilah tersebut muncul. Namun, frekuensi ini bergantung pada seluruh korpus. IDF merupakan jumlah dokumen dalam korpus yang dipisahkan oleh frekuensi teks. Dengan kata lain, IDF mengukur seberapa umum atau langka suatu kata dalam seluruh koleksi dokumen.

$$
    idf(t) = \frac{N}{df(t)}=\frac{N}{N(t)}
$$

$$
    idf(t) = log_2 \frac{N}{df(t)}
$$

Maka dari itu rumus dari TF * IDF adalah sebagai berikut:

$$
    tf-idf(t, d) = tf(t, d) * idf(t)
$$

## Modelling SVM

### Prepocessing

In [1]:
# import library yang dibutuhkan 
import pandas as pd
import re
from tqdm import tqdm
import nltk
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

Data yang sebelumnya sudah discrapping pada [tugas 1](https://rrayhka.github.io/pencarian-penambangan-web/tugas-1-crawling.html#convert-data-ke-dalam-csv) diimport untuk dijadikan VSM

In [2]:
df = pd.read_csv("data-artikel-cnbc.csv")

In [3]:
df.head()

Unnamed: 0,judul,tanggal,isi,url,kategori
0,Bukan Kaleng-kaleng! Nilai Skuad Timnas Indone...,09 September 2024 19:30,"Jakarta, CNBC Indonesia -Kedatangan pemain-pem...",https://www.cnbcindonesia.com/research/2024090...,Research
1,"Aset Bank Mandiri Tembus Rp 2.200 T, Paling Ju...",09 September 2024 19:05,"Jakarta, CNBC Indonesia -Sepanjang paruh perta...",https://www.cnbcindonesia.com/research/2024090...,Research
2,Emas Meredup Saat Suku Bunga The Fed Mau Turun...,09 September 2024 18:10,"Jakarta,CNBC Indonesia -Harga emas dunia melem...",https://www.cnbcindonesia.com/research/2024090...,Research
3,"Tetangga RI Dihantam 'Bencana' Iklim, Harga Ba...",09 September 2024 15:55,"Jakarta, CNBC Indonesia -Indeks Harga Konsumen...",https://www.cnbcindonesia.com/research/2024090...,Research
4,"Tantama Hingga Perwira, Ini Urutan Lengkap Pan...",09 September 2024 14:35,"Jakarta, CNBC Indonesia-Tentara Nasional Indon...",https://www.cnbcindonesia.com/research/2024090...,Research


In [4]:
# hanya memilih kolom judul, isi, dan kategori
df = df[['judul', 'isi','kategori']]
df.head()

Unnamed: 0,judul,isi,kategori
0,Bukan Kaleng-kaleng! Nilai Skuad Timnas Indone...,"Jakarta, CNBC Indonesia -Kedatangan pemain-pem...",Research
1,"Aset Bank Mandiri Tembus Rp 2.200 T, Paling Ju...","Jakarta, CNBC Indonesia -Sepanjang paruh perta...",Research
2,Emas Meredup Saat Suku Bunga The Fed Mau Turun...,"Jakarta,CNBC Indonesia -Harga emas dunia melem...",Research
3,"Tetangga RI Dihantam 'Bencana' Iklim, Harga Ba...","Jakarta, CNBC Indonesia -Indeks Harga Konsumen...",Research
4,"Tantama Hingga Perwira, Ini Urutan Lengkap Pan...","Jakarta, CNBC Indonesia-Tentara Nasional Indon...",Research


In [5]:
# Filter data untuk kategori "Research" dan "News" masing-masing diambil 50 berita
research = df[df["kategori"] == "Research"].sample(n=50, random_state=42)
news = df[df["kategori"] == "News"].sample(n=50, random_state=42)

In [6]:
# Gabungkan keduanya
data = pd.concat([research, news], ignore_index=True)

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   judul     100 non-null    object
 1   isi       100 non-null    object
 2   kategori  100 non-null    object
dtypes: object(3)
memory usage: 2.5+ KB


In [8]:
df.head()

Unnamed: 0,judul,isi,kategori
0,Bukan Kaleng-kaleng! Nilai Skuad Timnas Indone...,"Jakarta, CNBC Indonesia -Kedatangan pemain-pem...",Research
1,"Aset Bank Mandiri Tembus Rp 2.200 T, Paling Ju...","Jakarta, CNBC Indonesia -Sepanjang paruh perta...",Research
2,Emas Meredup Saat Suku Bunga The Fed Mau Turun...,"Jakarta,CNBC Indonesia -Harga emas dunia melem...",Research
3,"Tetangga RI Dihantam 'Bencana' Iklim, Harga Ba...","Jakarta, CNBC Indonesia -Indeks Harga Konsumen...",Research
4,"Tantama Hingga Perwira, Ini Urutan Lengkap Pan...","Jakarta, CNBC Indonesia-Tentara Nasional Indon...",Research


#### Cleansing Function

1. **Pembersihan Teks**:
       - Menghapus URL yang diawali dengan "www." atau "https://", agar tidak mengganggu hasil analisis.
       - Menghapus mention username yang diawali dengan '@' untuk menghindari gangguan dari referensi ke akun sosial media.
       - Menghapus spasi berlebih yang muncul akibat pembersihan teks sebelumnya.
       - Menghapus hashtag (kata yang diawali dengan '#'), karena hashtag tidak diperlukan dalam analisis konten.
       - Menghapus teks 'RT' (retweet) yang biasa ditemukan dalam tweet.
       - Menghapus tanda baca seperti titik, koma, tanda seru, dan karakter non-alfanumerik lainnya.
       - Menghapus angka dari teks karena angka biasanya tidak berkontribusi pada pemahaman konteks dalam teks (kecuali dalam analisis numerik).
       - Mengubah teks menjadi huruf kecil agar seragam dalam pengolahan, terutama dalam analisis berbasis kata.
       - Menghapus karakter non-ASCII untuk menghindari simbol atau karakter yang tidak dikenal di encoding ASCII.
       - Menghapus karakter tambahan non-ASCII yang mungkin masih tersisa di dalam teks.
       - Menghapus baris baru ('\n') agar hasilnya berupa satu baris teks yang konsisten.

2. **Stemming**:
       - Menggunakan library `Sastrawi` untuk stemming teks bahasa Indonesia. Stemming adalah proses mengubah kata-kata menjadi bentuk dasar (akar kata), 
         sehingga kata yang beragam seperti "makan", "memakan", "dimakan" semuanya diproses menjadi "makan".
       
3. **Tokenisasi**:
       - Memecah teks yang sudah dibersihkan dan distemming menjadi token (kata-kata individu), yang dapat diolah lebih lanjut.
       
4. **Filtering Stopwords**:
       - Menghapus stopwords (kata-kata umum yang tidak penting dalam analisis teks seperti "yang", "dan", "di") menggunakan daftar stopwords dari 
         bahasa Indonesia yang disediakan oleh NLTK. Ini bertujuan agar hanya kata-kata penting yang dipertahankan dalam teks.
       
5. **Penggabungan Kembali**:
       - Setelah proses tokenisasi dan filtering stopwords, token yang tersisa digabung kembali menjadi satu string teks yang siap digunakan 
         dalam teknik analisis teks selanjutnya, seperti perhitungan TF-IDF atau analisis vektor.


In [9]:
def clean_and_process_text(text):
    # Langkah pembersihan teks
    text = re.sub(r'((www\.[^\s]+)|(https?://[^\s]+))', ' ', text)  # Menghapus https* dan www*
    text = re.sub(r'@[^\s]+', ' ', text)  # Menghapus username
    text = re.sub(r'[\s]+', ' ', text)  # Menghapus tambahan spasi
    text = re.sub(r'#([^\s]+)', ' ', text)  # Menghapus hashtags
    text = re.sub(r'rt', ' ', text)  # Menghapus retweet
    text = re.sub(r'[^\w\s]+', ' ', text)  # Menghapus tanda baca
    text = re.sub(r'\d', ' ', text)  # Menghapus angka
    text = text.lower()  # Mengubah teks menjadi huruf kecil
    text = text.encode('ascii', 'ignore').decode('utf-8')  # Menghapus karakter non-ASCII
    text = re.sub(r'[^\x00-\x7f]', r'', text)  # Menghapus karakter non-ASCII yang tersisa
    text = text.replace('\n', '')  # Menghapus baris baru

    # Langkah stemming
    stemmer = StemmerFactory().create_stemmer()
    stemmed_text = stemmer.stem(text)

    # Tokenisasi
    tokens = nltk.tokenize.word_tokenize(stemmed_text)
    
    # Setelah ditokenisasi, setiap token dicek apakah itu stopword atau tidak
    stop_words = set(stopwords.words('indonesian'))
    filtered_words = [word for word in tokens if word not in stop_words]

    # Gabungkan kembali kata-kata yang sudah difilter menjadi teks
    processed_text = ' '.join(tqdm(filtered_words, desc="Menggabungkan kata"))
    
    return processed_text

In [10]:
df["cleansing"] = df["isi"].apply(clean_and_process_text)

Menggabungkan kata: 100%|████████████████████████████████████████████████████████████████████| 349/349 [00:00<?, ?it/s]
Menggabungkan kata: 100%|████████████████████████████████████████████████████████████████████| 187/187 [00:00<?, ?it/s]
Menggabungkan kata: 100%|████████████████████████████████████████████████████████████████████| 248/248 [00:00<?, ?it/s]
Menggabungkan kata: 100%|████████████████████████████████████████████████████████████████████| 355/355 [00:00<?, ?it/s]
Menggabungkan kata: 100%|██████████████████████████████████████████████████████████████████████| 84/84 [00:00<?, ?it/s]
Menggabungkan kata: 100%|████████████████████████████████████████████████████████████████████| 489/489 [00:00<?, ?it/s]
Menggabungkan kata: 100%|████████████████████████████████████████████████████████████████████| 360/360 [00:00<?, ?it/s]
Menggabungkan kata: 100%|████████████████████████████████████████████████████████████████████| 383/383 [00:00<?, ?it/s]
Menggabungkan kata: 100%|███████████████

In [11]:
df.head()

Unnamed: 0,judul,isi,kategori,cleansing
0,Bukan Kaleng-kaleng! Nilai Skuad Timnas Indone...,"Jakarta, CNBC Indonesia -Kedatangan pemain-pem...",Research,jaka a cnbc indonesia main main laga liga erop...
1,"Aset Bank Mandiri Tembus Rp 2.200 T, Paling Ju...","Jakarta, CNBC Indonesia -Sepanjang paruh perta...",Research,jaka a cnbc indonesia paruh pe ama bank pelat ...
2,Emas Meredup Saat Suku Bunga The Fed Mau Turun...,"Jakarta,CNBC Indonesia -Harga emas dunia melem...",Research,jaka a cnbc indonesia harga emas dunia lemah b...
3,"Tetangga RI Dihantam 'Bencana' Iklim, Harga Ba...","Jakarta, CNBC Indonesia -Indeks Harga Konsumen...",Research,jaka a cnbc indonesia indeks harga konsumen ih...
4,"Tantama Hingga Perwira, Ini Urutan Lengkap Pan...","Jakarta, CNBC Indonesia-Tentara Nasional Indon...",Research,jaka a cnbc indonesia tentara nasional indones...


### Perhitungan TF-IDF

In [12]:
# Fungsi untuk membuat Vector Space Model menggunakan TF-IDF
def create_vsm(docs):
    vectorizer = TfidfVectorizer() # Inisialisasi TF-IDF vectorizer
    tfidf_matrix = vectorizer.fit_transform(docs) # Transformasi dokumen menjadi vektor TF-IDF
    feature_names = vectorizer.get_feature_names_out() # Mendapatkan fitur (kata-kata yang diambil oleh vectorizer)
    df_vsm = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names) # Mengubah hasil TF-IDF menjadi DataFrame
    return df_vsm

In [13]:
docs = df["cleansing"].tolist() # Ambil teks dari kolom df["cleansing"] untuk digunakan dalam VSM
vsm_df = create_vsm(docs) # Buat Vector Space Model dan simpan ke dalam DataFrame

In [14]:
vsm_df

Unnamed: 0,aadan,aakash,aali,aan,aba,abad,abadi,abai,abalos,abar,...,zonamegathrustbukanlah,zonamegathrusttersebut,zonamegathrustyang,zone,zoom,zte,zucchetto,zuckerberg,zulhas,zulkifli
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
393,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
394,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
395,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
396,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
