# SKLearn 10 | Bag of Words & Stop Word Filtering | Text Processing | Belajar Machine Learning

## Bag of Words model sebagai representasi text

Bag of Words menyederhanakan representasi text sebagai sekumpulan kata serta mengabaikan grammar dan posisi tiap kata pada kalimat. Text akan dikonversi menjadi lowercase dan tanda baca akan diabaikan.

Referensi: https://en.wikipedia.org/wiki/Bag-of-words_model

Materi Pembelajaran dikutip dari sumber: https://www.youtube.com/watch?v=U30sF4m0bd0

### Dataset

In [1]:
corpus = [
    'Linux has been around since the mid-1990s.',
    'Linux distributions include the Linux kernel.',
    'Linux is one of the most prominent open-source software.'
]

corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

+ Dataset untuk kasus kali ini berupa sekumpulan kalimat pendek.
+ Dataset ini juga sering dikenal dengan istilah corpus.
+ Corpus terdiri dari 3 kalimat pendek, yaitu: 

    1. Linux has been around since the mid-1990s.
    2. Linux distributions include the Linux kernel.
    3. Linux is one of the most prominent open-source software.


+ 3 kalimat tersebut akan ditampung kedalam sebuah list yang kemudian di assign kedalam suatu variable bernama corpus.

### Bag of Words model dengan CountVectorizer

Bag of Words model dapat diterapkan dengan memanfatkan CountVectorizer.

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]],
       dtype=int64)

Untuk menerapkan Bag of Wodrs model dengan memanfaatkan CountVectorizer:

+ Melakukan import modul terlebih dahulu dengan memanggil "from sklearn.feature_extraction.text import CountVectorizer".
+ Membentuk objek dari class "CountVectorizer()" yang ditampung kedalam variable vectorizer.
+ Menggunakan objek vectorizer untuk menerapkan method fit_transform terhadap corpus dataset kemudian hasil yang terbentuk akan dikonversikan kedalam suatu array dengan memanggil method "todense()" akan mengkonversikan hasil "fit_transform()" dari objek vectorizer menjadi suatu array 2 dimensi kemudian ditampung kedalam variable vectorized_X.
+ Kemudian tampilkan hasil yang berupa array 2 dimensi dan setiap baris akan merepresentasikan tiap kalimat yang berada dalam corpus.
+ Baris pertama merepresentasikan kalimat pertama dalam corpus.
+ Baris kedua merepresentasikan kalimat kedua dalam corpus.
+ Baris ketiga merepresentasikan kalimat ketiga dalam corpus.

In [3]:
vectorizer.get_feature_names()

['1990s',
 'around',
 'been',
 'distributions',
 'has',
 'include',
 'is',
 'kernel',
 'linux',
 'mid',
 'most',
 'of',
 'one',
 'open',
 'prominent',
 'since',
 'software',
 'source',
 'the']

+ Ketika memanggil vectorizer.get_feature_names() maka akan mengembalikan sekumpulan kata yang berada dalam bag atau keranjang.
+ Teknik yang digunakan Bag of Words.
+ Kumpulan kata sudah tidak diurutkan berdasarkan ururtan kalimat melainkan berdasarkan alphabet.
+ Semua case menjadi lowercase.
+ Setiap kata yang ditampung dalam bag dikenal dengan istilah token.
+ Nilai pada array tidak hanya 0 dan 1, tetapi dilayar hanya muncul array dengan nilai 0 dan 1.
+ Setiap nilai merepresentasikan jumlah kemunculan token/kata tertentu pada kalimat.
+ index ke 0 merepresentasikan "1990s"
+ index ke 1 merepresentasikan "around", dan seterusnya begitu.
+ nilai 0 merepresentasikan kalimat yang tidak memiliki kata yang berada dalam bag atau keranjang.
+ nilai 1 merepresentasikan kalimat yang memiliki kata yang berada dalam bag atau keranjang.

### Euclidean Distance untuk mengukur kedekatan/jarak antar dokumen (vector)

In [4]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range(len(vectorized_X)):
    for j in range(i, len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i], vectorized_X[j])
        print(f'Jarak dokumen {i+1} dan {j+1}: {jarak}')

Jarak dokumen 1 dan 2: [[3.16227766]]
Jarak dokumen 1 dan 3: [[3.74165739]]
Jarak dokumen 2 dan 3: [[3.46410162]]


Untuk mengukur kedekatan atau kemiripan antar dokumen:

+ Melakukan import modul terlebih dahulu dengan memanggil "from sklearn.metrics.pairwise import euclidean_distances".
+ Kemudian akan mengukur jarak antar kalimat, berarti kalimat pertama akan diukur kedekatannya dengan kalimat kedua dan kalimat ketiga.
+ Selanjutnya akan mengukur kedekatan/jarak antara kalimat kedua dan kalimat ketiga. 

Hasilnya:

+ Jarak antara dokumen pertama dan dokumen kedua adalah 3.16227766.
+ Jarak antara dokumen pertama dan dokumen ketiga adalah 3.74165739
+ Jarak antara dokumen kedua dan dokumen ketiga adalah 3.46410162

Kesimpulan:

+ Dapat dilihat nilai terkecilnya adalah antara dokumen pertama dan dokumen kedua, artinya tingkat kemiripan antara dokumen pertama dan dokumen kedua yang paling tinggi diantara ketiga dokumen yang tersedia.

## Stop Word Filtering pada text

Stop Word Filtering menyederhanakan representasi text dengan mengabaikan beberapa kata seperti determiners (the, a, an), auxiliary verbs (do, be, will), dan prepositions (on, in, at).

Referensi: https://en.wikipedia.org/wiki/Stop_word

### Dataset

Untuk kasus kali ini menggunakan corpus atau dataset yang sama seperti yang digunakan sebelumnya.

In [5]:
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

Corpus terdiri dari 3 kalimat, yaitu:

    1. Linux has been around since the mid-1990s.
    2. Linux distributions include the Linux kernel.
    3. Linux is one of the most prominent open-source software.

Dapat diperhatikan pada ketiga kalimat tersebut, terdapat beberapa Stop Word slaha satunya adalah the, has, been, is, of dan itu adalah Stop Word yang akan diabaikan.

### Stop Word Filtering dengan CountVectorizer

Stop Word Filtering juga dapat diterapkan dengan memanfatkan CountVectorizer.

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english')
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 2, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 1, 1, 1]], dtype=int64)

Memanfaatkan Stop Filtering untuk mengeluarkan Stop Word dari corpus yang dimiliki.
Pada SKLearn Stop Word Filtering juga dapat diterapkan dengan memanfaatkan modul CountVectorizer, berikut langkah-langkahnya: 

+ Melakukan import modul terlebih dahulu dengan memanggil "from sklearn.feature_extraction.text import CountVectorizer".
+ Kemudian membentuk objek dari class "CountVectorizer(stop_words='english'), sewaktu kita membentuk objek CountVectorizer kita juga menyertakan parameter stop_words yang diberi nilai 'english', karena kasusnya untuk melakukan Stop Word Filtering untuk bahasa inggris.
+ Lalu selanjutnya objek "CountVectorizer" yang terbentuk akan ditampung kedalam variable vectorizer.
+ Objek vectorizer akan dipanggil untuk menerapkan fit_transform() terhadap corpus yang dimiliki dan hasil fit_transform() akan dikonversi kedalam array 2 dimensi karena itu dipanggil method .todense().
+ Array 2 dimensi yang terbentuk akan ditampung kedalam variable vectorizer_X untuk ditampilkan.

In [7]:
vectorizer.get_feature_names()

['1990s',
 'distributions',
 'include',
 'kernel',
 'linux',
 'mid',
 'open',
 'prominent',
 'software',
 'source']

+ Merupakan kumpulan kata atau token yang sudah difiltering Stop Wordnya.
+ Bisa dilihat kita sudah tidak menyertakan Stop Word dalam kumpulan kata atau token.