# BAG OF WORDS & STOP WORD FILTERING

Sumber :
- https://www.youtube.com/watch?v=U30sF4m0bd0&ab_channel=IndonesiaBelajar

## Bag of Words model sebagai representasi text

Menurut Wikipedia, Bag of Words menyerdehanakan representasi text sebagai sekumpulan kata serta mengabaikan grammar dan posisi tiap kata pada kalimat. Text dikonveri menjadi lowercase/huruf kecil dan tanda baca akan diabaikan. 

### Dataset

Pertama-tama, siapkan dataset text terlebih dahulu yang berisi kalimat-kalimat pendek. Dataset text ini biasa disebut dengan corpus dan dalam dataset yang saya buat memiliki 3 kalimat pendek di dalamnya. 

In [32]:
corpus = [
    'Linux has been around since the mid-1990s.',
    'Linux distributions include the Linex kernel',
    'Linux is one of the most prominent open-source software'
]
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linex kernel',
 'Linux is one of the most prominent open-source software']

## Bags of Words model dengan CountVectorizer

Bags of words model dapat diterapkan dengan memanfaatkan CountVextorizer

Langkah-langkah:
- Mengimport modulnya yaitu CountVectorizer
- Membuat objek dari class CountVectorizer dengan memanggil CountVectorizer() dan ditampung ke dalam variable 'vectorizer'
- Kemudian objek 'vectorizer' akan digunakan untuk melakukan metode fit_transform terhadap dataset corpus. Lalu hasilnya akan dikonversikan ke dalam array, oleh karena itu menggunakan method todense() dan hasilnya akan dimasukkan ke dalam variable 'vectorized_X'

Method todense() berguna untuk mengubah hasil fit_transform menjadi sebuah array 2 dimensi. 

In [33]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X 

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]],
       dtype=int64)

#### Karena kita menggunakan teknik Bag of Words, maka kata-kata hasil output dibawah ini adalah sekumpulan kata yang berada di dalam keranjang/bags tersebut. Kemudian kata-kata dibawah ini sudah diurutkan secara alfabetical dan menjadi lowercase.

#### Jika diperhatikan dengan matrix yang diatas, angka pertama adalah 1 yang artinya kata '1990s' ada dalam kalimat tersebut. Apabila angkanya 0 maka kata tersebut tidak ada di dalam kalimat tersebut.  

In [34]:
vectorizer.get_feature_names()

['1990s',
 'around',
 'been',
 'distributions',
 'has',
 'include',
 'is',
 'kernel',
 'linex',
 'linux',
 'mid',
 'most',
 'of',
 'one',
 'open',
 'prominent',
 'since',
 'software',
 'source',
 'the']

### Euclidean Distance untuk mengukur kedekatan/jarak antar dokumen (vector)

Dengan representasi Bag of Words suatu algoritma machine learning dapat lebih mudah mengukur kedekatan/kemiripan antar dokumen. 
Pada tahap ini saya akan menggunakan eculidean distance untuk mengukur kedekatan antar dokumen.

Langkah-langkah:
- import modul euclidean_distances
- mengukur jarak antar kalimatnya (kalimat pertama akan diukur kedekatannya dengan kalimat kedua dan kalimat pertama akan diukur kedekatannya dengan kalimat ketiga, kalimat kedua akan diukur kedekatannya dengan kalimat ketiganya). 
- Untuk mengukur kedekatannya kita akan menggunakan for loop statement.


In [35]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range(len(vectorized_X)):
    for j in range(i,len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i],vectorized_X[j])
        print(f'Jarak dokumen {i+1} dan {j+1}:{jarak}')

Jarak dokumen 1 dan 2:[[3.16227766]]
Jarak dokumen 1 dan 3:[[3.74165739]]
Jarak dokumen 2 dan 3:[[3.46410162]]


Dapat dilihat hasil output diatas bahwa jarak dokumen 1 dan 2 paling tinggi diantara yang lainnya. 

## Stop Word FIltering pada text 

Menurut Wikipedia, Stop Word Filtering menyederhanakan representasi text dengan mengabaikan beberapa kata seperti determiners (the, a, an), auxiliary verbs (do, will, be) dan preposition (on, in, at).

### Dataset

Kita akan menggunakan dataset yang telah dipakai sebelumnya yaitu dataset corpus. 

Dapat dilihat bahwa dalam dataset corpus ini terdapat kata-kata seperti has, the, been, is, dan of. Kata-kata ini akan menjadi stop word/kata-kata yang akan kita abaikan. 

In [36]:
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linex kernel',
 'Linux is one of the most prominent open-source software']

## Stop Word Filtering dengan CountVectorizer

Stop Word Filtering juga dapat diterapkan dengan memanfaatkan CountVectorizer

Langkah-langkah:
- Mengimport module CountVectorizer
- Kita akan membentuk objek dari class CountVectorizer dengan menggunakan parameter stop_words yang berisi 'english', karena kita akan menggunakan stop wordsnya dalam bahasa inggris. Objek ini akan ditampung ke dalam variable 'vectorizer'
- Kemudian 'vectorizer' ini akan digunakan untuk melakukan fit_transform terhadap dataset corpus dan dikonversikan ke dalam array 2 dimensi dengan menggunakan todense(). Hasilnya akan ditampung ke dalamv variable 'vectorized_X'

In [37]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english')
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1]], dtype=int64)

In [38]:
vectorizer.get_feature_names()

['1990s',
 'distributions',
 'include',
 'kernel',
 'linex',
 'linux',
 'mid',
 'open',
 'prominent',
 'software',
 'source']

Dapat dilihat dari hasil output di atas bahwa ada beberapa kata yang hilang berarti dapat disimpulkan bahwa kita berhasil untuk menggunakan metode stop words. 

# TF-IDF Term Frequency - Inverse Document Frequency 

Sumber :
- https://www.youtube.com/watch?v=f0a1XXmaQp8&ab_channel=IndonesiaBelajar

TF-IDF (Term Frequency - Inverse Document Frequency) merupakan salah satu metode statistik yang digunakan untuk mengukur seberapa penting suatu kata terhadap suatu dokumen tertentu dari sekumpulan dokumen atau corpus. 

Referensi :
- https://en.wikipedia.org/wiki/Tf%E2%80%93idf
- https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction

## Dataset

Pertama-tama, siapkan dataset corpus yang berisi 5 kalimat pendek. 

In [39]:
corpus = [
    'the house had a tiny little mouse',
    'the cat saw the mouse',
    'the mouse ran away from the house',
    'the cat finally ate the mouse',
    'the end of the mouse story'
]
corpus

['the house had a tiny little mouse',
 'the cat saw the mouse',
 'the mouse ran away from the house',
 'the cat finally ate the mouse',
 'the end of the mouse story']

## TF-IDF Weights dengan TfidfVectorizer

Langkah-langkah:
- Import module TfidfVectorizer
- Membuat objek dari Class TfidfVectorizer dengan parameter stop_words yang berisi 'english'. Kemudian objek ini akan ditampung ke dalam variable 'vectorizer'
- Kita akan menggunakan 'vectorizer' untuk melakukan fit_transform terhadap dataset corpus. Lalu hasil fit_transform akan dimasukkan ke dalam variable 'response'

In [40]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english')
response = vectorizer.fit_transform(corpus)
print(response)

  (0, 7)	0.2808823162882302
  (0, 6)	0.5894630806320427
  (0, 11)	0.5894630806320427
  (0, 5)	0.47557510189256375
  (1, 9)	0.7297183669435993
  (1, 2)	0.5887321837696324
  (1, 7)	0.3477147117091919
  (2, 1)	0.5894630806320427
  (2, 8)	0.5894630806320427
  (2, 7)	0.2808823162882302
  (2, 5)	0.47557510189256375
  (3, 0)	0.5894630806320427
  (3, 4)	0.5894630806320427
  (3, 2)	0.47557510189256375
  (3, 7)	0.2808823162882302
  (4, 10)	0.6700917930430479
  (4, 3)	0.6700917930430479
  (4, 7)	0.3193023297639811


Dari hasil output diatas :
- Angka yang paling kiri merepresentasikan index dari corpus. 
  Index 0 merepresentasikan kalimat pertama dari corpus
  Index 1 merepresentasikan kalimat kedua dari corpus
  Index 2 merepresentasikan kalimat ketiga dari corpus, dst
- Angka kedua dari paling kiri merepresentasikan index dari features name yang dihasilkan dari Bag of Words. Contohnya adalah (0,7) berarti pada kalimat pertama mengandung kata 'mouse' (dilihat dari features_name).
- Sekumpulan angka di paling kanan merepresentasikan bobot dari tiap TF-IDF dari hasil kalkulasi TF-IDF vectorizer

In [41]:
vectorizer.get_feature_names()

['ate',
 'away',
 'cat',
 'end',
 'finally',
 'house',
 'little',
 'mouse',
 'ran',
 'saw',
 'story',
 'tiny']

In [42]:
response.todense()

matrix([[0.        , 0.        , 0.        , 0.        , 0.        ,
         0.4755751 , 0.58946308, 0.28088232, 0.        , 0.        ,
         0.        , 0.58946308],
        [0.        , 0.        , 0.58873218, 0.        , 0.        ,
         0.        , 0.        , 0.34771471, 0.        , 0.72971837,
         0.        , 0.        ],
        [0.        , 0.58946308, 0.        , 0.        , 0.        ,
         0.4755751 , 0.        , 0.28088232, 0.58946308, 0.        ,
         0.        , 0.        ],
        [0.58946308, 0.        , 0.4755751 , 0.        , 0.58946308,
         0.        , 0.        , 0.28088232, 0.        , 0.        ,
         0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.67009179, 0.        ,
         0.        , 0.        , 0.31930233, 0.        , 0.        ,
         0.67009179, 0.        ]])

Dapat dilihat melalui output dibawah bahwa kata 'cat' terdapat dalam dokumen kedua(D2) dan dalam dokumen keempat(D4). Hanya saja kata 'cat' ini memiliki bobot yang lebih tinggi pada D2 dibandingkan dengan D4. Semakin tinggi bobot suatu kata terhadap suatu dokumen maka kata tersebut semakin layak untuk digunakan sebagai keywords terhadap dokumen tersebut. 

In [43]:
import pandas as pd

df = pd.DataFrame(response.todense().T,
                 index=vectorizer.get_feature_names(),
                 columns=[f'D{i+1}' for i in range(len(corpus))])
df

Unnamed: 0,D1,D2,D3,D4,D5
ate,0.0,0.0,0.0,0.589463,0.0
away,0.0,0.0,0.589463,0.0,0.0
cat,0.0,0.588732,0.0,0.475575,0.0
end,0.0,0.0,0.0,0.0,0.670092
finally,0.0,0.0,0.0,0.589463,0.0
house,0.475575,0.0,0.475575,0.0,0.0
little,0.589463,0.0,0.0,0.0,0.0
mouse,0.280882,0.347715,0.280882,0.280882,0.319302
ran,0.0,0.0,0.589463,0.0,0.0
saw,0.0,0.729718,0.0,0.0,0.0
