<img src="../images/gado-gado.jpg" width="500">
<center>Gado-Gado<br>Salah satu makanan favorit <a href="https://haloapping.github.io/">Apping</a></center>

# Bag of Words

- Menyederhanakan representasi teks menjadi kumpulan kata dengan mengabaikan *grammar* dan posisi kata pada kalimat. Teks akan dikonversi menjadi *lowercase* dan tanda baca diabaikan.

# Dataset

- Corpus adalah isitilah dataset pada bidang NLP (*Natural Languange Processing*).
- Biasanya berisi sekumpulan kalimat.

In [1]:
corpus = [
    "Saya suka sama dia, tetapi dia tidak suka sama aku.",
    "Akhirnya aku jomblo lagi.",
    "Capek banget perjuangin kamu, tapi kamu gak perjuangin aku."
]

corpus

['Saya suka sama dia, tetapi dia tidak suka sama aku.',
 'Akhirnya aku jomblo lagi.',
 'Capek banget perjuangin kamu, tapi kamu gak perjuangin aku.']

# `CountVectorizer` pada ScikitLearn.

- Untuk menerapkan Bag of Words, dapat digunakan kelas `CountVectorizer` pada ScikitLearn.
- Dapat menggunakan *Frequency Vectors* atau *One Hot Vectors*.

## Frequency Vectors

- Mengubah sekumpulan kata dalam representasi matrix dengan menghitung frekuensi kemunculan untuk setiap token.

### Encoding

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

freq_vectorizer = CountVectorizer()
freq_vectorized = freq_vectorizer.fit_transform(corpus).todense()
print(f"Representation in matrix:\n{freq_vectorized}\n")
print(f"Freq Word:\n{freq_vectorizer.get_feature_names()}\n")
print(f"Corpus:")
for idx, text in enumerate(corpus): print(f"kalimat {idx + 1}: {text}")

Representation in matrix:
[[0 1 0 0 2 0 0 0 0 0 2 1 2 0 1 1]
 [1 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0]
 [0 1 1 1 0 1 0 2 0 2 0 0 0 1 0 0]]

Freq Word:
['akhirnya', 'aku', 'banget', 'capek', 'dia', 'gak', 'jomblo', 'kamu', 'lagi', 'perjuangin', 'sama', 'saya', 'suka', 'tapi', 'tetapi', 'tidak']

Corpus:
kalimat 1: Saya suka sama dia, tetapi dia tidak suka sama aku.
kalimat 2: Akhirnya aku jomblo lagi.
kalimat 3: Capek banget perjuangin kamu, tapi kamu gak perjuangin aku.


In [3]:
import pandas as pd

index = ["kalimat " + str(i) for i in range(1, len(corpus) + 1)]
columns = freq_vectorizer.get_feature_names()

freq_martrix = pd.DataFrame(
    data=freq_vectorized,
    index=index,
    columns=columns
)

freq_martrix

Unnamed: 0,akhirnya,aku,banget,capek,dia,gak,jomblo,kamu,lagi,perjuangin,sama,saya,suka,tapi,tetapi,tidak
kalimat 1,0,1,0,0,2,0,0,0,0,0,2,1,2,0,1,1
kalimat 2,1,1,0,0,0,0,1,0,1,0,0,0,0,0,0,0
kalimat 3,0,1,1,1,0,1,0,2,0,2,0,0,0,1,0,0


### Euclidean Distance untuk Mengukur Kedekatan/Jarak antar Dokumen

In [4]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range(len(freq_vectorized)):
    for j in range(i, len(freq_vectorized)):
        if i == j:
            continue
            
        distance = euclidean_distances(freq_vectorized[i], freq_vectorized[j])
        print(f"Jarak dokumen {i + 1} dan {j + 1}: {distance}")

Jarak dokumen 1 dan 2: [[4.24264069]]
Jarak dokumen 1 dan 3: [[5.19615242]]
Jarak dokumen 2 dan 3: [[3.87298335]]


## One Hot Encoding Vectors

Mengubah sekumpulan kata dalam representasi matrix dengan memberikan label 0 jika token tersebut tidak berada dalam kalimat dan 1 jika sebaliknya.

### Encoding

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

one_hot_vectorizer = CountVectorizer(binary=True)
one_hot_vectorized = one_hot_vectorizer.fit_transform(corpus).todense()
print(f"Representation in matrix:\n{one_hot_vectorized}\n")
print(f"Freq Word:\n{one_hot_vectorizer.get_feature_names()}\n")
print(f"Corpus:")
for idx, text in enumerate(corpus): print(f"kalimat{idx + 1}: {text}")

Representation in matrix:
[[0 1 0 0 1 0 0 0 0 0 1 1 1 0 1 1]
 [1 1 0 0 0 0 1 0 1 0 0 0 0 0 0 0]
 [0 1 1 1 0 1 0 1 0 1 0 0 0 1 0 0]]

Freq Word:
['akhirnya', 'aku', 'banget', 'capek', 'dia', 'gak', 'jomblo', 'kamu', 'lagi', 'perjuangin', 'sama', 'saya', 'suka', 'tapi', 'tetapi', 'tidak']

Corpus:
kalimat1: Saya suka sama dia, tetapi dia tidak suka sama aku.
kalimat2: Akhirnya aku jomblo lagi.
kalimat3: Capek banget perjuangin kamu, tapi kamu gak perjuangin aku.


In [6]:
import pandas as pd

index = ["kalimat " + str(i) for i in range(1, len(corpus) + 1)]
columns = one_hot_vectorizer.get_feature_names()

pd.DataFrame(
    data=one_hot_vectorized,
    index=index,
    columns=columns
)

Unnamed: 0,akhirnya,aku,banget,capek,dia,gak,jomblo,kamu,lagi,perjuangin,sama,saya,suka,tapi,tetapi,tidak
kalimat 1,0,1,0,0,1,0,0,0,0,0,1,1,1,0,1,1
kalimat 2,1,1,0,0,0,0,1,0,1,0,0,0,0,0,0,0
kalimat 3,0,1,1,1,0,1,0,1,0,1,0,0,0,1,0,0


### Euclidean Distance untuk Mengukur Kedekatan/Jarak antar Dokumen

In [7]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range(len(one_hot_vectorized)):
    for j in range(i, len(one_hot_vectorized)):
        if i == j:
            continue
            
        distance = euclidean_distances(one_hot_vectorized[i], one_hot_vectorized[j])
        print(f"Jarak dokumen {i + 1} dan {j + 1}: {distance}")

Jarak dokumen 1 dan 2: [[3.]]
Jarak dokumen 1 dan 3: [[3.46410162]]
Jarak dokumen 2 dan 3: [[3.]]


# Stop Word Filtering

- Menyederhanakan kumpulan kata, dimana kata-kata yang tidak memiliki makna atau kurang memberikan informasi akan diabaikan.
- Kata-kata tersebut, antara lain kata permisah, kata penghunung, kata bantu, dan preposisi.

## Stop Word Filtering dengan CountVectorizer

In [8]:
corpus

['Saya suka sama dia, tetapi dia tidak suka sama aku.',
 'Akhirnya aku jomblo lagi.',
 'Capek banget perjuangin kamu, tapi kamu gak perjuangin aku.']

In [11]:
from sklearn.feature_extraction.text import CountVectorizer

stop_word_vectorizer = CountVectorizer(stop_words=["tetapi", "tapi", "tidak", "gak"])
stop_word_vectorized = stop_word_vectorizer.fit_transform(corpus).todense()

print(f"Representation stop word:\n{stop_word_vectorized}\n")
print(f"Stop Word:\n{stop_word_vectorizer.get_stop_words()}\n")
print(f"Corpus:")
for idx, text in enumerate(corpus): print(f"kalimat {idx + 1}: {text}")

Representation stop word:
[[0 1 0 0 2 0 0 0 0 2 1 2]
 [1 1 0 0 0 1 0 1 0 0 0 0]
 [0 1 1 1 0 0 2 0 2 0 0 0]]

Stop Word:
frozenset({'tidak', 'gak', 'tapi', 'tetapi'})

Corpus:
kalimat 1: Saya suka sama dia, tetapi dia tidak suka sama aku.
kalimat 2: Akhirnya aku jomblo lagi.
kalimat 3: Capek banget perjuangin kamu, tapi kamu gak perjuangin aku.


In [10]:
import pandas as pd

index = ["kalimat " + str(i) for i in range(1, len(corpus) + 1)]
columns = stop_word_vectorizer.get_feature_names()

pd.DataFrame(
    data=stop_word_vectorized,
    index=index,
    columns=columns
)

Unnamed: 0,akhirnya,aku,banget,capek,dia,jomblo,kamu,lagi,perjuangin,sama,saya,suka
kalimat 1,0,1,0,0,2,0,0,0,0,2,1,2
kalimat 2,1,1,0,0,0,1,0,1,0,0,0,0
kalimat 3,0,1,1,1,0,0,2,0,2,0,0,0
