# 10 Mengenal Text Processing: <br/>Bag of Words & Stop Word Filtering

## Bag of Words model sebagai representasi text

Bag of Words bertujuan untuk menyederhanakan representasi text sebagai sekumpulan kata serta mengabaikan grammar dan posisi tiap kata pada kalimat. Kemudian text akan dikonversi menjadi lowercase dan tanda baca akan diabaikan.

Referensi: [https://en.wikipedia.org/wiki/Bag-of-words_model](https://en.wikipedia.org/wiki/Bag-of-words_model)

### Dataset

Sebelum melakukan ``Bag of Words & Stop Word Filtering`` pertama-tama kita mempersiapkan Dataset terlebih dahulu dengan ``corpus`` (Dataset Pendek) sebagai variabel yang berisikan list sebagai berikut :

- ``'Linux has been around since the mid-1990s.'``
- ``'Linux distributions include the Linux kernel.'``
- ``'Linux is one of the most prominent open-source software.'``

In [1]:
corpus = [
    'Linux has been around since the mid-1990s.',
    'Linux distributions include the Linux kernel.',
    'Linux is one of the most prominent open-source software.'
]

corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

### Bag of Words model dengan `CountVectorizer`

Bag of Words model dapat diterapkan dengan memanfatkan `CountVectorizer`.

`CountVectorizer` biasa digunakan untuk mengonversikan kumpulan dokumen teks menjadi vektor jumlah istilah/token. Ini juga memungkinkan pra-pemrosesan data teks sebelum menghasilkan representasi vektor. Fungsionalitas ini menjadikannya modul representasi fitur yang sangat fleksibel untuk teks.

Referensi : https://ichi.pro/id/countvectorizer-dengan-python-42072304686163

Sebelum melakukan `CountVectorizer` terlebih dahulu untuk import module `from sklearn.feature_extraction.text import CountVectorizer` dengan memanggil `CountVectorizer()` yang ditampung ke dalam variabel `vectorizer`. Selanjutnya melakukan tranform fit `fit_transform(corpus)` dengan parameter `corpus` yang diikuti method `todense()` kemudian ditampung ke dalam variabel `vectorized_X` seperti script dibawah ini.

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]],
       dtype=int64)

Hasil diatas akan merepresentasikan sebagai berikut :

- `[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1]` sebagai `'Linux has been around since the mid-1990s.'`
- `[0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]` sebagai `'Linux distributions include the Linux kernel.'`
- `[0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]` sebagai `'Linux is one of the most prominent open-source software.'`

Untuk informasi mengenai angka **1** dan **0** diatas kita dapat mengetahuinya dengan memanggil `vectorizer.get_feature_names()` yang nilai pada array tidak hanya **0** dan **1**. Setiap nilai tersebut merepresentasikan jumlah kemunculan token/kata tertentu pada kalimat seperti script dibawah ini.

In [3]:
vectorizer.get_feature_names()

['1990s',
 'around',
 'been',
 'distributions',
 'has',
 'include',
 'is',
 'kernel',
 'linux',
 'mid',
 'most',
 'of',
 'one',
 'open',
 'prominent',
 'since',
 'software',
 'source',
 'the']

Hasil diatas diurutkan berdasarkan dari `CountVectorizer` yang memiliki nilai lower atau huruf kecil.

### Euclidean Distance untuk mengukur kedekatan/jarak antar dokumen (vector)


Euclidean distance adalah perhitungan jarak dari 2 buah titik dalam Euclidean space. Jarak Euclidean biasa diterapkan untuk membantu proses klasifikasi pada data mining, jarak euclidean diterapkan untuk berbagai dimensi.


Referensi : https://www.kitainformatika.com/2019/10/mengukur-jarak-euclidean-teori-dan.html

Sebelum melakukan Euclidean Distance terlebih dahulu untuk melakukan import module `from sklearn.metrics.pairwise import euclidean_distances` dengan pemahaman bahwa kalimat pertama akan diukur dengan kalimat kedua bergitu juga untuk selanjutnya dengan memakai statement script dibawah ini.

In [4]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range(len(vectorized_X)):
    for j in range(i, len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i], vectorized_X[j])
        print(f'Jarak dokumen {i+1} dan {j+1}: {jarak}')

Jarak dokumen 1 dan 2: [[3.16227766]]
Jarak dokumen 1 dan 3: [[3.74165739]]
Jarak dokumen 2 dan 3: [[3.46410162]]


## Stop Word Filtering pada text

Stop Word Filtering menyederhanakan representasi text dengan mengabaikan beberapa kata seperti determiners (the, a, an),  auxiliary verbs (do, be, will), dan prepositions (on, in, at).

Stop Word biasanya mengacu pada kata-kata atau teks yang paling umum dalam suatu bahasa, tidak ada daftar kata berhenti universal tunggal yang digunakan oleh semua alat pemrosesan bahasa alami, dan bahkan tidak semua alat menggunakan daftar seperti itu. Beberapa alat secara khusus menghindari penghapusan kata-kata berhenti ini untuk mendukung pencarian frase.

Referensi: [https://en.wikipedia.org/wiki/Stop_word](https://en.wikipedia.org/wiki/Stop_word)

### Dataset

Pada tahap `Stop Word Filtering pada test` dapat menggunakan dataset sebelumnya seperti sebagai berikut.

In [5]:
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

### Stop Word Filtering dengan `CountVectorizer`

Stop Word Filtering juga dapat diterapkan dengan memanfatkan `CountVectorizer` dengan melakukan import module terlebih dahulu `from sklearn.feature_extraction.text import CountVectorizer` dengan memanggil `CountVectorizer(stop_words='english')` yang berisikan parameter `stop_words='english'` ditampung ke dalam variabel `vectorizer`. Selanjutnya melakukan tranform fit `fit_transform(corpus)` dengan parameter `corpus` yang diikuti method `todense()` kemudian ditampung ke dalam variabel `vectorized_X` seperti script dibawah ini.

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english')
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 2, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 1, 1, 1]], dtype=int64)

Hasil diatas akan merepresentasikan sebagai berikut :

- `[1, 0, 0, 0, 1, 1, 0, 0, 0, 0]` sebagai `'Linux has been around since the mid-1990s.'`
- `[0, 1, 1, 1, 2, 0, 0, 0, 0, 0]` sebagai `'Linux distributions include the Linux kernel.'`
- `[0, 0, 0, 0, 1, 0, 1, 1, 1, 1]` sebagai `'Linux is one of the most prominent open-source software.'`

Untuk informasi mengenai angka **1** dan **0** diatas kita dapat mengetahuinya dengan memanggil `vectorizer.get_feature_names()` yang nilai pada array tidak hanya **0** dan **1**. Setiap nilai tersebut merepresentasikan jumlah kemunculan token/kata tertentu pada kalimat seperti script dibawah ini.

In [7]:
vectorizer.get_feature_names()

['1990s',
 'distributions',
 'include',
 'kernel',
 'linux',
 'mid',
 'open',
 'prominent',
 'software',
 'source']