`Word Embedding` atau `Word Modelling` atau `Vektorisasi` adalah proses mengubah kata/kalimat menjadi sebuah vektor.

# 1. Import Package

In [1]:
import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

# 2. Data

In [2]:
text = ['Ini adalah pensil, tapi itu adalah pulpen',
        'Ini adalah pulpen, tapi itu adalah pensil',
        'Itu adalah pensil.',
        'Saya mau beli pulpen.',
        'Saya ada pulpen itu, tapi tidak ada pensil itu.',
        'Saya tidak ada pensil ini',
        'Saya mau beli pulpen dan pensil',
        'Ini adalah pulpen']

# 3. Proses Word Embedding

## 3.1. BoW (Bag of Words)
BoW adalah proses mengubah kalimat menjadi vektor dengan mempertimbangkan frekuensi dari setiap kata-kata yang muncul.

### Bow without Removing StopWords

In [6]:
## BoW pakai CountVectorizer
bow_model  = CountVectorizer()
bow_matrix = bow_model.fit_transform(text)

## Sanity Check
pd.DataFrame(bow_matrix.toarray(),
             columns=bow_model.get_feature_names_out(),
             index=text)

Unnamed: 0,ada,adalah,beli,dan,ini,itu,mau,pensil,pulpen,saya,tapi,tidak
"Ini adalah pensil, tapi itu adalah pulpen",0,2,0,0,1,1,0,1,1,0,1,0
"Ini adalah pulpen, tapi itu adalah pensil",0,2,0,0,1,1,0,1,1,0,1,0
Itu adalah pensil.,0,1,0,0,0,1,0,1,0,0,0,0
Saya mau beli pulpen.,0,0,1,0,0,0,1,0,1,1,0,0
"Saya ada pulpen itu, tapi tidak ada pensil itu.",2,0,0,0,0,2,0,1,1,1,1,1
Saya tidak ada pensil ini,1,0,0,0,1,0,0,1,0,1,0,1
Saya mau beli pulpen dan pensil,0,0,1,1,0,0,1,1,1,1,0,0
Ini adalah pulpen,0,1,0,0,1,0,0,0,1,0,0,0


### BoW with Removing StopWords

In [9]:
!pip install Sastrawi
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
list_sw_sastrawi = StopWordRemoverFactory().get_stop_words()

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/209.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━[0m [32m122.9/209.7 kB[0m [31m3.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [10]:
## BoW pakai CountVectorizer
bow_model  = CountVectorizer(stop_words=list_sw_sastrawi)
bow_matrix = bow_model.fit_transform(text)

## Sanity Check
pd.DataFrame(bow_matrix.toarray(),
             columns=bow_model.get_feature_names_out(),
             index=text)

Unnamed: 0,beli,mau,pensil,pulpen
"Ini adalah pensil, tapi itu adalah pulpen",0,0,1,1
"Ini adalah pulpen, tapi itu adalah pensil",0,0,1,1
Itu adalah pensil.,0,0,1,0
Saya mau beli pulpen.,1,1,0,1
"Saya ada pulpen itu, tapi tidak ada pensil itu.",0,0,1,1
Saya tidak ada pensil ini,0,0,1,0
Saya mau beli pulpen dan pensil,1,1,1,1
Ini adalah pulpen,0,0,0,1


## 3.2. TF-IDF (Term Frequency - Inverse Document Frequency)
TF-IDF adalah proses mengubah kalimat menjadi vektor yang diproses menggunakan teknik BoW, lalu discaling menggunakan inversenya.

Efek dari TF-IDF :
1. Kata-kata yang sering muncul, akan dianggap tidak penting karena seakan-akan tidak ada pembeda antara kalimat yang satu dengan kaliman yang lainnya.
2. Kata-kata yang jarang muncul akan dikuatkan.

### TF-IDF without Removing Stopwords

In [11]:
## TF-IDF pakai TfidfVectorizer
bow_model  = TfidfVectorizer()
bow_matrix = bow_model.fit_transform(text)

## Sanity Check
pd.DataFrame(bow_matrix.toarray(),
             columns=bow_model.get_feature_names_out(),
             index=text)

Unnamed: 0,ada,adalah,beli,dan,ini,itu,mau,pensil,pulpen,saya,tapi,tidak
"Ini adalah pensil, tapi itu adalah pulpen",0.0,0.684266,0.0,0.0,0.342133,0.342133,0.0,0.269631,0.269631,0.0,0.390216,0.0
"Ini adalah pulpen, tapi itu adalah pensil",0.0,0.684266,0.0,0.0,0.342133,0.342133,0.0,0.269631,0.269631,0.0,0.390216,0.0
Itu adalah pensil.,0.0,0.617675,0.0,0.0,0.0,0.617675,0.0,0.486781,0.0,0.0,0.0,0.0
Saya mau beli pulpen.,0.0,0.0,0.584411,0.0,0.0,0.0,0.584411,0.0,0.34846,0.442159,0.0,0.0
"Saya ada pulpen itu, tapi tidak ada pensil itu.",0.655199,0.0,0.0,0.0,0.0,0.495716,0.0,0.195334,0.195334,0.247858,0.282691,0.327599
Saya tidak ada pensil ini,0.534494,0.0,0.0,0.0,0.404392,0.0,0.0,0.318696,0.0,0.404392,0.0,0.534494
Saya mau beli pulpen dan pensil,0.0,0.0,0.460912,0.549963,0.0,0.0,0.460912,0.274822,0.274822,0.348721,0.0,0.0
Ini adalah pulpen,0.0,0.617675,0.0,0.0,0.617675,0.0,0.0,0.0,0.486781,0.0,0.0,0.0


### TF-IDF with Removing Stopwords

In [12]:
## TF-IDF pakai TfidfVectorizer
bow_model  = TfidfVectorizer(stop_words=list_sw_sastrawi)
bow_matrix = bow_model.fit_transform(text)

## Sanity Check
pd.DataFrame(bow_matrix.toarray(),
             columns=bow_model.get_feature_names_out(),
             index=text)

Unnamed: 0,beli,mau,pensil,pulpen
"Ini adalah pensil, tapi itu adalah pulpen",0.0,0.0,0.707107,0.707107
"Ini adalah pulpen, tapi itu adalah pensil",0.0,0.0,0.707107,0.707107
Itu adalah pensil.,0.0,0.0,1.0,0.0
Saya mau beli pulpen.,0.651563,0.651563,0.0,0.3885
"Saya ada pulpen itu, tapi tidak ada pensil itu.",0.0,0.0,0.707107,0.707107
Saya tidak ada pensil ini,0.0,0.0,1.0,0.0
Saya mau beli pulpen dan pensil,0.607339,0.607339,0.362131,0.362131
Ini adalah pulpen,0.0,0.0,0.0,1.0


# 4. Kekurangan BoW dan TF-IDF

In [14]:
text_new = ['Saya mau beli pulpen.',
            'pulpen mau beli saya']

# model  = CountVectorizer()
model  = TfidfVectorizer()

matrix = model.fit_transform(text_new)

pd.DataFrame(matrix.toarray(),
             columns=model.get_feature_names_out(),
             index=text_new)

Unnamed: 0,beli,mau,pulpen,saya
Saya mau beli pulpen.,0.5,0.5,0.5,0.5
pulpen mau beli saya,0.5,0.5,0.5,0.5


Urutan kata dalam kalimat tidak mempengaruhi hasil vektorisasi walaupun sebenarnya bisa beda arti.
<br> Perhatikan kalimat 1 dan kalimat 2. Walaupun beda susunan sehingga artinya beda, tapi BoW dan TF-IDF menganggapnya sama.

Untuk handling case ini, kita bisa manfaatkan `n-gram`.

Yang kita pakai sebelumnya, kita sudah `n-gram=1` atau sering disebut sebagai monogram.

In [17]:
# model  = TfidfVectorizer(ngram_range=(1,2))
model  = CountVectorizer(ngram_range=(1,2))

matrix = model.fit_transform(text_new)

pd.DataFrame(matrix.toarray(),
             columns=model.get_feature_names_out(),
             index=text_new)

Unnamed: 0,beli,beli pulpen,beli saya,mau,mau beli,pulpen,pulpen mau,saya,saya mau
Saya mau beli pulpen.,1,1,0,1,1,1,0,1,1
pulpen mau beli saya,1,0,1,1,1,1,1,1,0
