## Text Processing: Bag of Words & Stop Word Filtering
learning source: https://www.youtube.com/watch?v=U30sF4m0bd0&list=PL2O3HdJI4voHNEv59SdXKRQVRZAFmwN9E&index=11

### **Bag of Words**
- Bag of words menyederhanakan representasi text sebagai sekumpulan kata serta mengabaikan grammar dan posisi tiap kata pada kalimat
- Text akan dikonversi menjadi lowercase dan tanda baca akan diabaikan

#### *Dataset*
---

Corpus adalah kumpulan teks yang menangkap penggunaan bahasa dalam bentuk tertulis atau lisan.

In [1]:
corpus = [
    'Linux has been around since the mid-1990s.',
    'Linux distributions include the Linux kernel.',
    'Linux is one of the most prominent open-source software.']

corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

#### *CountVectorizer*
---
Bag of words model dapat diterapkan dengan memanfaatkan `CountVectorizer`

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]],
       dtype=int64)

- Setiap baris merepresentasikan tiap kalimat didalam corpus
- Sekumpulan bilangan 0, 1, 2 dst merepresentasikan fitur/kata dalam bag (output kode dibawah)

In [3]:
vectorizer.get_feature_names_out()

array(['1990s', 'around', 'been', 'distributions', 'has', 'include', 'is',
       'kernel', 'linux', 'mid', 'most', 'of', 'one', 'open', 'prominent',
       'since', 'software', 'source', 'the'], dtype=object)

- get_feature_names_out ini menghasilkan output sekumpulan kata dalam keranjang/bag (dataset corpus)
- Diurutkan secara alfabetik
- Semua di lowercase
- Setiap kata yang ditampung dalam bag juga dikenal dengan istilah token

**Contoh Penjelasan:**
Kalimat 1 - 'Linux has been around since the mid-1990s.'


|**Fitur**|'1990s'|'around'|'been'|'distributions'|'has'|'include'|'is'|'kernel'|'linux'|'mid'|'most'|'of'|'one'|'open'|'prominent'|'since'|'software'|'source'|'the'|
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|**Jumlah Kemunculan**|1|1|1|0|1|0|0|0|1|1|0|0|0|0|0|1|0|0|1|

<br>


#### *Euclidean Distance*
---
Untuk mengukur kedekatan/jarak antar dokumen (vector) :
- Berapa kedekatan kalimat 1 dengan kalimat 2?
- Kalimat 1 dengan kalimat 3?
- Kalimat 2 dengan kalimat 3?

In [4]:
import warnings
warnings.filterwarnings("ignore")

In [5]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range (len(vectorized_X)):
    for j in range (i, len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i], vectorized_X[j])
        print(f'Kedekatan kalimat {i+1} dan {j+1}: {jarak}')

Kedekatan kalimat 1 dan 2: [[3.16227766]]
Kedekatan kalimat 1 dan 3: [[3.74165739]]
Kedekatan kalimat 2 dan 3: [[3.46410162]]


**Kesimpulan :** tingkat kemiripan kalimat 1 dengan kalimat 2 adalah yang paling tinggi

### **Stop Word Filtering**
- Menyederhanakan representasi text dengan **mengabaikan** beberapa kata seperti determiners (**the, a, an**), auxiliary verbs (**do, be, will**), dan preposition (**on, in, at**)

#### *Dataset*
---

In [6]:
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

#### *CountVectorizer*
---
Stop Word Filtering juga dapat diterapkan dengan memanfaatkan `CountVectorizer`

In [7]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english')
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 2, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 1, 1, 1]], dtype=int64)

In [8]:
vectorizer.get_feature_names_out()

array(['1990s', 'distributions', 'include', 'kernel', 'linux', 'mid',
       'open', 'prominent', 'software', 'source'], dtype=object)

Representasi kalimat yang lebih sederhana

#### *Euclidean Distance*
---

In [9]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range (len(vectorized_X)):
    for j in range (i, len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i], vectorized_X[j])
        print(f'Kedekatan kalimat {i+1} dan {j+1}: {jarak}')

Kedekatan kalimat 1 dan 2: [[2.44948974]]
Kedekatan kalimat 1 dan 3: [[2.44948974]]
Kedekatan kalimat 2 dan 3: [[2.82842712]]


**Kesimpulan :** tingkat kemiripan kalimat 1 dengan kalimat 2 dan 3 adalah sama dan yang paling tinggi

### **Kesimpulan**

- Stop word filtering adalah teknik untuk menghilangkan kata-kata yang dianggap tidak memiliki nilai prediktif atau tidak penting dalam analisis teks. Tujuan dari stop word filtering adalah untuk memfokuskan analisis pada kata-kata yang lebih penting atau memiliki nilai prediktif yang lebih tinggi.

- Bags of words (BoW) adalah representasi teks yang merepresentasikan sebuah dokumen sebagai sebuah kumpulan kata-kata atau token. Dalam BoW, setiap kata dalam dokumen dianggap sebagai sebuah fitur atau variabel, dan dokumen direpresentasikan sebagai sebuah vektor yang berisi frekuensi kemunculan setiap kata dalam dokumen tersebut. BoW tidak memperhatikan urutan kata-kata dalam dokumen, melainkan hanya memperhatikan frekuensi kemunculan kata-kata tertentu dalam dokumen.