Dalam machine learning terdapat bidang yang secara spesifik membahas dataset text.bidang ini dikenal sebagai Natural Language Processing atau biasa disingkat sebagai NLP.

Dalam machine learning sendiri terdapat beberapa teknik yang umum digunakan untuk feature extraction dari dataset text.pada sesi kali ini,kita akan mempelajari dua diantaranya yaitu Bag of Words dan Stop Word Filtering

# Bag of Words model sebagai representasi text

Bag of Words menyederhanakan representasi text sebagai sekumpulan kata serta mengabaikan grammar dan posisi tiap kata pada kalimat. Text akan dikonversi menjadi lowercase dan tanda baca akan diabaikan.

Referensi: https://en.wikipedia.org/wiki/Bag-of-words_model

### Dataset

In [9]:
corpus = [
    'Linux has been around since the mid-1990s.',
    'Linux distributions include the Linux kernel.',
    'Linux is one of the most prominent open-source software.'
]

corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

Kasus kita kali ini datasetnya berupa sekumpulan kalimat pendek.dataset text ini juga sering dikenal dengan istilah "Corpus".Corpusnya terdiri dari tiga kalimat pendek

### Bag of Words model dengan CountVectorizer

Bag of Words model dapat diterapkan dengan memanfatkan CountVectorizer.

*Kita akan memanfaatkan bag of words untuk melakukan feature extraction dari dataset yang kita miliki*

In [10]:
from sklearn.feature_extraction.text import CountVectorizer #import modul

vectorizer = CountVectorizer() #membentuk objek
vectorized_X = vectorizer.fit_transform(corpus).todense() #menerapkan fit transform 
vectorized_X

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]],
       dtype=int64)

Method "todense" akan mengkonversikan hasil fit transform dari objek vectorizer menjadi suatu array dua dimensi

Setiap baris dari hasil tersebut menrepresentasikan tiap kalimat yang berada dalam corpus kita.

In [11]:
vectorizer.get_feature_names()

['1990s',
 'around',
 'been',
 'distributions',
 'has',
 'include',
 'is',
 'kernel',
 'linux',
 'mid',
 'most',
 'of',
 'one',
 'open',
 'prominent',
 'since',
 'software',
 'source',
 'the']

* Sewaktu kita memanggil "vectorizer.get_feature_names" maka akan dikembalikan sekumpulan kata yang berada dalam bag/keranjang
* Semua case menjadi lowercase artinya sudah tidak ada lagi huruf besar
* Setiap kata yang ditampung dalam bag atau keranjang ini juga dikenal dengan istilah token
* Setiap nilai tersebut menrepresentasikan jumlah kemunculan token/kata tertentu pada kalimat

Dari hasil kita mengetahui bahwa :
* index ke-0 menrepresentasikan 1990s

* index pertama menrepsentasikan around

dst

* Jika pada kalimat terdapat kata "1990s" maka hasil dari vectorizer adalah "1"
* Jika pada kalimat tidak terdapat kata distributions maka hasil dari vectorizer adalah "0"

### Euclidean Distance untuk mengukur kedekatan/jarak antar dokumen (vector)

Bagaimana representasi text dalam format bag of words ini dapat membantu proses training dari suatu model atau algoritma machine learning? Jawabannya adalah dengan representasi bag of words,suatu algoritma machine learning dapat dengan lebih mudah mengukur kedekatan atau kemiripan antar dokumen

In [12]:
from sklearn.metrics.pairwise import euclidean_distances #import modul

for i in range(len(vectorized_X)): #ukur jarak antarkalimat
    for j in range(i, len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i], vectorized_X[j])
        print(f'Jarak dokumen {i+1} dan {j+1}: {jarak}')

Jarak dokumen 1 dan 2: [[3.16227766]]
Jarak dokumen 1 dan 3: [[3.74165739]]
Jarak dokumen 2 dan 3: [[3.46410162]]


Dapat dilihat dari hasil tersebut,nilai terkecil adalah yang baris pertama (Jarak dokumen 1 dan 2).kita bisa simpulkan bahwa tingkat kemiripan antara dokumen pertama dengan dokumen kedua itu yang paling tinggi diantara ketiga dokumen tersebut

# Stop Word Filtering pada text

Stop Word Filtering menyederhanakan representasi text dengan mengabaikan beberapa kata seperti determiners (the, a, an), auxiliary verbs (do, be, will), dan prepositions (on, in, at).

Stop Word Filtering cukup umum ditemui dalam bidang NLP atau Natural Language Processing

Referensi: https://en.wikipedia.org/wiki/Stop_word

### Dataset

In [13]:
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

Dari hasil tersebut,terdapat beberapa stop words salah satunya adalah the,has,been,is,of dan semuanya merupakan stop words yang akan kita abaikan

### Stop Word Filtering dengan CountVectorizer

Stop Word Filtering juga dapat diterapkan dengan memanfatkan CountVectorizer.

*Memanfaatkan Stop Word Filtering untuk mengeluarkan stop words dari corpus yang kita miliki*

In [14]:
from sklearn.feature_extraction.text import CountVectorizer #import modul

vectorizer = CountVectorizer(stop_words='english') 
vectorized_X = vectorizer.fit_transform(corpus).todense() #fit transform
vectorized_X

matrix([[1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 2, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 1, 1, 1]], dtype=int64)

Menyertakan parameter stop_words yang kita beri nilai "english",karena kasusnya disini adalah melakukan Stop Word Filtering untuk bahasa inggris

In [15]:
vectorizer.get_feature_names()

['1990s',
 'distributions',
 'include',
 'kernel',
 'linux',
 'mid',
 'open',
 'prominent',
 'software',
 'source']

Dari hasil tersebut,merupakan kumpulan kata/tokens yang sudah kita filtering stop wordsnya.Alhasil kita akan memperoleh representasi dari suatu kalimat yang lebih sederhana