# 10 Mengenal Text Processing: Bag of Words & Stop Word Filtering

- NRP : 1973005
- Nama : Ferly Jeremi Purnawna Apiang

mempelajari 2 macam text processing yang umum ditemui dalam bidang machine learning yaitu :

- Bag of Words.
- Stop Word Filtering.

Dari pembelajaran sebelumnya, komputer atau machine tidak bisa memahami data text dengan baik. Lalu bagimana ketika dihadapkan pada sekumpulan data text dalam bentuk kalimat atau dokumen? Dalam machine learning, terdapat bidang yang secara spesifik membahas dataset text, bidang ini dikenal sebagai "Natural Language Processing" atau yang biasanya disingkat sebagai NLP. Yang kita pelajari pada sesi kali ini bisa kita manfaatkan sebagai pengantar NLP.

Dalam bidang machine learning sendiri terdapat beberapa teknik yang umum digunakan untuk melakukan features extraction dari dataset text. Pada sesi pemebelajaran kali ini, kita akan mempelajari dua diantaranya, yaitu "Bag of Words" dan "Stop Word Filtering".

## Bag of Words model sebagai representasi text

Bag of Words menyederhanakan representasi text sebagai sekumpulan kata serta mengabaikan grammar dan posisi tiap kata pada kalimat. Text akan dikonversi menjadi lowercase dan tanda baca akan diabaikan.

Referensi: https://en.wikipedia.org/wiki/Bag-of-words_model

### Dataset

In [4]:
corpus = [
    'Linux has been around since the mid-1990s.',
    'Linux distributions include the Linux kernel.',
    'Linux is one of the most prominent open-source software.'
]

corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

- Siapkan terlebih dahulu suatu data text. Untuk kasus kita kali ini, dataset nya berupa sekumpulan kalimat pendek atau string. Dataset text ini juga seringkali dikenal dengan istilah "Corpus".
- Untuk kasus kita kali ini, corpus kita terdiri dari tiga kalimat pendek yaitu : kalimat pertama adalah 'Linux has been around since the mid-1990s.'. Kalimat kedua 'Linux distribuutions include the linux kernel.', dan kalimat ketiga adalah 'Linux is one of the most prominent open-source software.'.
- Ketiga kalimat tersebut akan kita tampung kedalam suatu list yang kemudian kita assign kedalam suatu variabel yang kita beri nama 'corpus'.
- Lalu terakhir kita akan coba tampilkan isi dari variabel 'corpus' tersebut.

Dataset text ini sering disebut corpus. Corpus terdiri dari 3 kalimat pendek. 


### Bag of Words model dengan CountVectorizer

Bag of Words model dapat diterapkan dengan memanfatkan CountVectorizer.

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]],
       dtype=int64)

- import terlebih dahulu modulnya dengan memanggil "from sklearn.feature_extraction.text import CountVectorizer".
- Lalu selanjutnya kita akan membentuk objek dari kelas "CountVectorizer" dengan memanggil "CountVectorizer()" yang akan ditampung kedalam variabel "vectorizer".
- Selanjutnya kita akan menggunakan objek "vectorizer" ini untuk menerapkan method fit transform terhadap "corpus" dataset lalu hasil yang terbentuk akan kita konversikan kedalam suatu array. Oleh karenanya, disini kita memanggil method "todense()" atau dengan kata lain method todense ini akan mengkonversikan hasil fit transform dari objek "vectorizer" tersebut menjadi suatu array dua dimensi yang diamana objek array dua dimensi terebut akan ditampung kedalam variabel "vectorized_X".

Bag of words model dapat di terapkan dengan CountVectorizer. variabel vectorizer menampung hasil objek. Vectorizer.fit_transform(corpus).todense() menerapkan method fit transform terhadap corpus dataset, todense() berfungsi untuk mengubah hasil fit tranform menjadi array dua dimensi. Dan Variabel vectorized_X menampung hasil array
 
hasilnya berupa array 2 dimensi yang setiap barisnya akan merepresentasikan tiap kalimat yang berada dalam corpus yang dimiliki.


In [7]:
vectorizer.get_feature_names()

['1990s',
 'around',
 'been',
 'distributions',
 'has',
 'include',
 'is',
 'kernel',
 'linux',
 'mid',
 'most',
 'of',
 'one',
 'open',
 'prominent',
 'since',
 'software',
 'source',
 'the']

Kumpulan kata diurutkan berdasarkan Alphabetical Order, semua case menjadi lowercase dan setiap nilai merepresentasikan jumlah kemunculan kata tertentu pada kalimat.


### Euclidean Distance untuk mengukur kedekatan/jarak antar dokumen (vector)

In [8]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range(len(vectorized_X)):
    for j in range(i, len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i], vectorized_X[j])
        print(f'Jarak dokumen {i+1} dan {j+1}: {jarak}')

Jarak dokumen 1 dan 2: [[3.16227766]]
Jarak dokumen 1 dan 3: [[3.74165739]]
Jarak dokumen 2 dan 3: [[3.46410162]]


Dengan representasi Bag Of Words suatu algoritma machine learning dapat dengan lebih mudah mengukur kedekatan atau kemiripan antar dokumen. Euclidean distances ini untuk mengukur kedekatan.

jarak antara dokumen pertama dan kedua adalah 3.16227766, lalu jarak antara dokumen pertama dengan dokumen ketiga adalah 3.74165739, dan jarak antara dokumen kedua dengan dokumen ketiga adalah 3.46410162. Jika kita perhatikan disini, nilai terkecilnya adalah jarak antar dokumen pertama dan kedua atau dengan kata lain disini kita bisa simpulkan bahwa tingkat kemiripan antara dokumen pertama dengan dokumen kedua adalah yang tertinggi diantara ketiga dokumen tersebut.

## Stop Word Filtering pada text

Stop Word Filtering menyederhanakan representasi text dengan mengabaikan beberapa kata seperti determiners (the, a, an), auxiliary verbs (do, be, will), dan prepositions (on, in, at).

Referensi: https://en.wikipedia.org/wiki/Stop_word

### Dataset

In [9]:
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

terdapat beberapa stop word yaitu "the", "has", "been", "is", dan "of" yang akan di stop word atau di abaikan.

### Stop Word Filtering dengan CountVectorizer

Stop Word Filtering juga dapat diterapkan dengan memanfatkan CountVectorizer.

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english')
vectorized_X = vectorizer.fit_transform(corpus).todense()

vectorized_X

matrix([[1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 2, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 1, 1, 1]], dtype=int64)

- Mengimport terlebih dahulu modulnya dengan memanggil "from sklearn.feature_extraction.text import CountVectorizer".
- Lalu selanjutnya kita akan membentuk terlebih dahulu objek dari class Count Vectorizer tersebut. Yang berbeda kali ini adalah sewaktu kita membentuk objek Count Vectorizer, kita juga akan menyertakan parameter "stop_words" yang kita beri nilai 'english' karena pada kasus kali ini untuk melakukan stop word filtering untuk bahasa inggris. Lalu selanjutnya objek Count Vectorizer yang terbentuk akan kita tampung kedalam variabel "vectorized".
- Objek "vectorized" ini kemudian akan kita panggil untuk menerapkan "fit_tranform" terhadap corpus yang kita miliki dan hasil tranformnya kita akan konversikan ke dalam array dua dimensi. Oleh karenanya, kita akan memnaggil method ".todense()" dan array dua dimensi yang terbentuk akan kita tampung kedalam variabel "vectorized_X".
- Lalu kita tampilkan hasilnya.


Stop Word Filtering untuk mengeluarkan Stop Word dari corpus. Lalu membentuk objek dari class CountVectorizer(stop_words='english'). Pada variabel vectorized_X menampung hasil objek dan vectorizer.fit_transform(corpus).todense() menerapkan method fit transform terhadap corpus dataset, todense() berfungsi untuk mengubah hasil fit tranform menjadi array dua dimensi.

In [8]:
vectorizer.get_feature_names()

['1990s',
 'distributions',
 'include',
 'kernel',
 'linux',
 'mid',
 'open',
 'prominent',
 'software',
 'source']

Setelah melakukan Stop Word Filtering alhasil memperoleh representasi suatu kalimat yang lebih sederhana