# **10 Mengenal Bag of Words & Stop Word Filtering**

**Bag of Words model sebagai representasi text** <br>
Bag of Words (BoW) adalah metode representasi teks yang sederhana. Metode ini mengabaikan tata bahasa dan urutan kata dalam kalimat. Dalam BoW, teks akan dikonversi menjadi huruf kecil dan tanda baca akan diabaikan. <br>
Referensi : https://en.wikipedia.org/wiki/Bag-of-words_model

**Dataset**

In [5]:
# Daftar kalimat yang akan digunakan sebagai corpus
corpus = [
    'Linux has been around since the mid-1990s.',  # Menginformasikan keberadaan Linux sejak pertengahan tahun 1990-an
    'Linux distributions include the Linux kernel.',  # Menyebutkan bahwa distribusi Linux mencakup kernel Linux
    'Linux is one of the most prominent open-source software.'  
    # Menyatakan bahwa Linux adalah salah satu perangkat lunak open-source yang paling menonjol
]

# Menampilkan corpus yang telah didefinisikan
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

**Bag of Words model dengan <code>CountVectorizer<code>**

Bag of Words model dapat diterapkan dengan memanfatkan <code>CountVectorizer<code>.

Cara Kerja <code>CountVectorizer<code>:
- Tokenisasi : Memecah teks menjadi kata-kata (token) individual.
- Pembersihan Teks : Mengubah semua teks menjadi huruf kecil dan menghapus tanda baca.
- Membangun Kosakata : Membuat daftar kata-kata unik yang ditemukan dalam seluruh corpus.
- Membuat Vektor Film : Menghitung frekuensi kemunculan setiap kata dalam setiap dokumen dan membentuk matriks fitur.

Fitur Utama <code>CountVectorizer<code>:
- Lowercasing : CountVectorizer mengonversi semua teks menjadi huruf kecil.
- Stop Words : Dapat diatur untuk menghapus kata-kata umum yang tidak memberikan informasi penting
- N-grams : Dapat dikonfigurasi untuk mempertimbangkan kombinasi kata.
- Binary Mode : Dapat diatur untuk hanya menunjukkan keberadaan atau ketidakhadiran kata.

In [10]:
# Import CountVectorizer dari pustaka scikit-learn
from sklearn.feature_extraction.text import CountVectorizer

# Inisialisasi CountVectorizer
vectorizer = CountVectorizer()

# Menerapkan fit_transform pada corpus untuk tokenisasi dan menghitung frekuensi kata
# Mengonversi hasilnya menjadi matriks padat (dense matrix)
vectorized_X = vectorizer.fit_transform(corpus).todense()

# Menampilkan matriks fitur yang dihasilkan
vectorized_X

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]],
       dtype=int64)

In [12]:
# Mendapatkan daftar fitur (kata-kata unik) yang dihasilkan dari proses tokenisasi
vectorizer.get_feature_names_out()

array(['1990s', 'around', 'been', 'distributions', 'has', 'include', 'is',
       'kernel', 'linux', 'mid', 'most', 'of', 'one', 'open', 'prominent',
       'since', 'software', 'source', 'the'], dtype=object)

**Euclidean Distance untuk mengukur kedekatan/jarak antar dokumen (vector)**

In [15]:
# Import numpy
import numpy as np
# Import euclidean_distances dari pustaka sklearn.metrics.pairwise
from sklearn.metrics.pairwise import euclidean_distances

# Looping untuk menghitung jarak antara setiap pasangan dokumen menggunakan Euclidean distance
for i in range(len(vectorized_X)):
    for j in range(i, len(vectorized_X)):
        # Menghindari perhitungan jarak antara dokumen yang sama
        if i == j:
            continue
        # Mengonversi matriks vectorized_X menjadi tipe data numpy array
        X_i = np.asarray(vectorized_X[i])
        X_j = np.asarray(vectorized_X[j])
        # Menghitung jarak antara dua dokumen menggunakan Euclidean distance
        jarak = euclidean_distances(X_i, X_j)
        # Menampilkan hasil jarak antara dua dokumen
        print(f'Jarak dokumen {i+1} dan {j+1}: {jarak}')

Jarak dokumen 1 dan 2: [[3.16227766]]
Jarak dokumen 1 dan 3: [[3.74165739]]
Jarak dokumen 2 dan 3: [[3.46410162]]


**Stop Word Filtering pada text** <br>
Stop Word Filtering menyederhanakan representasi text dengan mengabaikan beberapa kata seperti determiners (the, a, an), auxiliary verbs (do, be, will), dan prepositions (on, in, at). <br>
Referensi: https://en.wikipedia.org/wiki/Stop_word

**Dataset**

In [21]:
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

**Stop Word Filtering dengan <code>CountVectorizer<code>** <br>
Stop Word Filtering juga dapat diterapkan dengan memanfaatkan <code>CountVectorizer<code>

In [24]:
# Import CountVectorizer dari pustaka scikit-learn
from sklearn.feature_extraction.text import CountVectorizer

# Inisialisasi CountVectorizer dengan mengatur stop words ke 'english'
vectorizer = CountVectorizer(stop_words='english')

# Menerapkan fit_transform pada corpus untuk tokenisasi dan menghitung frekuensi kata
# Mengonversi hasilnya menjadi matriks padat (dense matrix)
vectorized_X = vectorizer.fit_transform(corpus).todense()

# Menampilkan matriks fitur yang dihasilkan
vectorized_X

matrix([[1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 2, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 1, 1, 1]], dtype=int64)

In [26]:
# Mendapatkan daftar fitur (kata-kata unik) yang dihasilkan dari proses tokenisasi
vectorizer.get_feature_names_out()

array(['1990s', 'distributions', 'include', 'kernel', 'linux', 'mid',
       'open', 'prominent', 'software', 'source'], dtype=object)