# 10 Mengenal Text Processing: <br/>Bag of Words & Stop Word Filtering\

Sumber : https://www.youtube.com/watch?v=U30sF4m0bd0

## Bag of Words model sebagai representasi text

Bag of Words menyederhanakan representasi text sebagai sekumpulan kata serta mengabaikan grammar dan posisi tiap kata pada kalimat. Text akan dikonversi menjadi lowercase dan tanda baca akan diabaikan.

Referensi: [https://en.wikipedia.org/wiki/Bag-of-words_model](https://en.wikipedia.org/wiki/Bag-of-words_model)

### Dataset

Yang kita perlukan pertama-tama adalah dataset text yang berisi kalimat-kalimat pendek. Dataset text ini disebut corpus dan dalam dataset berisi 3 kalimat pendek di dalamnya.

In [1]:
corpus = [
    'Linux has been around since the mid-1990s.',
    'Linux distributions include the Linux kernel.',
    'Linux is one of the most prominent open-source software.'
]

corpus

### Bag of Words model dengan `CountVectorizer`

Bag of Words model dapat diterapkan dengan memanfatkan `CountVectorizer`.

Langkah-langkah penerapan:

- Mengimport modul CountVectorizer
- Membuat objek dari class CountVectorizer dengan memanggil CountVectorizer() dan ditampung ke dalam variable 'vectorizer'
- Kemudian objek 'vectorizer' akan digunakan untuk melakukan metode fit_transform terhadap dataset corpus.
- Hasilnya akan dikonversikan ke dalam array dengan menggunakan method todense() dan hasilnya akan dimasukkan ke dalam variable 'vectorized_X'.

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]])

Karena teknik yang digunakan adalah Bag of Words, maka hasil output merupakan sekumpulan kata yang berada di dalam keranjang/bags dan terururt secara alfabetical dan menjadi lowercase.

Jika diperhatikan dengan matrix yang diatas, angka pertama adalah 1 yang artinya kata '1990s' ada dalam kalimat tersebut. Apabila angkanya 0 maka kata tersebut tidak ada di dalam kalimat tersebut.

In [3]:
vectorizer.get_feature_names()

['1990s',
 'around',
 'been',
 'distributions',
 'has',
 'include',
 'is',
 'kernel',
 'linux',
 'mid',
 'most',
 'of',
 'one',
 'open',
 'prominent',
 'since',
 'software',
 'source',
 'the']

### Euclidean Distance untuk mengukur kedekatan/jarak antar dokumen (vector)


Dengan representasi Bag of Words suatu algoritma machine learning dapat lebih mudah mengukur kemiripan antar dokumen. Pada tahap ini saya akan menggunakan eculidean distance untuk mengukur kedekatan antar dokumen.

Langkah-langkah:

- Import modul euclidean_distances
-  Melakukan pengukuran jarak antar kalimatnya (kalimat pertama akan diukur kedekatannya dengan kalimat kedua dan kalimat pertama akan diukur kedekatannya dengan kalimat ketiga, kalimat kedua akan diukur kedekatannya dengan kalimat ketiganya).
- Untuk mengukur kedekatannya kita dapat menggunakan for loop statement.

In [4]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range(len(vectorized_X)):
    for j in range(i, len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i], vectorized_X[j])
        print(f'Jarak dokumen {i+1} dan {j+1}: {jarak}')

Jarak dokumen 1 dan 2: [[3.16227766]]
Jarak dokumen 1 dan 3: [[3.74165739]]
Jarak dokumen 2 dan 3: [[3.46410162]]


Dapat dilihat hasil output diatas bahwa jarak terjauh terdapat pada dokumen 1 dan 2 .

## Stop Word Filtering pada text

Stop Word Filtering menyederhanakan representasi text dengan mengabaikan beberapa kata seperti determiners (the, a, an),  auxiliary verbs (do, be, will), dan prepositions (on, in, at).

Referensi: [https://en.wikipedia.org/wiki/Stop_word](https://en.wikipedia.org/wiki/Stop_word)

### Dataset

Dataset yang kita gunakan adalah dataset Corpus. 

Dataset corpus ini terdapat kata-kata seperti has, the, been, is, dan of. Kata-kata ini akan menjadi stop word/kata-kata yang akan diabaikan.

In [5]:
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

### Stop Word Filtering dengan `CountVectorizer`

Stop Word Filtering juga dapat diterapkan dengan memanfatkan `CountVectorizer`.

Langkah-langkah penerapan :

- Import module CountVectorizer
- Kita akan membentuk objek dari class CountVectorizer dengan menggunakan parameter stop_words yang berisi 'english', karena  stop wordsnya yang diinginkan adalah dalam bentuk bahasa inggris. Objek ini akan ditampung ke dalam variable 'vectorizer'
- Kemudian 'vectorizer' ini akan digunakan untuk melakukan fit_transform terhadap dataset corpus dan dikonversikan ke dalam array 2 dimensi dengan menggunakan todense(). 
- Hasilnya akan ditampung ke dalam variable 'vectorized_X'

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english')
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 2, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 1, 1, 1]])

In [7]:
vectorizer.get_feature_names()

['1990s',
 'distributions',
 'include',
 'kernel',
 'linux',
 'mid',
 'open',
 'prominent',
 'software',
 'source']

Dapat dilihat dari hasil output terdapat beberapa kata yang hilang berarti dapat disimpulkan bahwa kita berhasil untuk menggunakan metode stop words.