##### Bag of Words (BoW) adalah pendekatan sederhana dalam pemrosesan teks yang mengubah teks menjadi representasi numerik. Ide dasarnya adalah kita menganggap setiap dokumen sebagai "tas" (bag) kata-kata dan hanya peduli tentang keberadaan kata-kata dalam dokumen tersebut, bukan urutan atau konteksnya. Kemudian, untuk setiap dokumen, kita hitung berapa kali setiap kata muncul. 

Hasilnya adalah matriks, yakni setiap baris mewakili sebuah dokumen dan setiap kolom mewakili kata-kata unik dalam seluruh kumpulan dokumen. Dengan cara ini, BoW memungkinkan kita mengukur kemunculan kata-kata dalam teks secara numerik, yang dapat digunakan untuk berbagai analisis teks, yakni klasifikasi dokumen, analisis sentimen, dan banyak lagi. 

In [1]:
# Import library CountVectorizer dari Scikit-learn yang digunakan untuk mengubah teks menjadi representasi Bag of Words (BoW).
from sklearn.feature_extraction.text import CountVectorizer

##### Data teks berisi beberapa dokumen contoh yang akan diolah

In [2]:
documents = [
    "Ini adalah contoh dokumen pertama.",
    "Ini adalah dokumen kedua.",
    "Ini adalah dokumen ketiga.",
    "Ini adalah contoh contoh contoh."
]

##### Inisialisasi objek CountVectorizer

In [3]:
vectorizer = CountVectorizer()

##### Melakukan fitting dan transformasi pada data teks menggunakan CountVectorizer. Proses ini akan menghitung frekuensi kemunculan setiap kata dalam setiap dokumen.

In [4]:
bow_matrix = vectorizer.fit_transform(documents)

##### Setelah transformasi, kita mendapatkan matriks Bag of Words (BoW), yang merupakan representasi numerik dari teks. Matriks ini berisi jumlah kemunculan setiap kata dalam setiap dokumen.

In [5]:
bow_matrix.toarray()

array([[1, 1, 1, 1, 0, 0, 1],
       [1, 0, 1, 1, 1, 0, 0],
       [1, 0, 1, 1, 0, 1, 0],
       [1, 3, 0, 1, 0, 0, 0]], dtype=int64)

##### Kita juga mendapatkan daftar fitur (kata-kata) yang dihasilkan oleh CountVectorizer.

In [6]:
features = vectorizer.get_feature_names_out()

##### Hasilnya, kita mencetak matriks BoW beserta daftar fitur yang dihasilkan

In [7]:
print("Matriks BoW:")
print(bow_matrix.toarray())
 
print("\nDaftar Fitur:")
print(features)

Matriks BoW:
[[1 1 1 1 0 0 1]
 [1 0 1 1 1 0 0]
 [1 0 1 1 0 1 0]
 [1 3 0 1 0 0 0]]

Daftar Fitur:
['adalah' 'contoh' 'dokumen' 'ini' 'kedua' 'ketiga' 'pertama']


####

##### Dengan menggunakan CountVectorizer, kita bisa mengonversi teks menjadi representasi numerik yang dapat diproses lebih lanjut oleh algoritma pembelajaran mesin atau analisis statistik. Ini memungkinkan kita untuk melakukan berbagai analisis dan pemrosesan teks dengan menggunakan teknik-teknik pemrosesan bahasa alami.