# SKLearn 10 - Mengenal Text Processing: Bag of Words & Stop Word Filtering

Machine tidak dapat memahami teks dengan baik. Namun, dalam machine learning terdapat NLP (Natural Language Processing) yang merupakan bidang yang secara spesifik membahas mengenai dataset text. Terdapat teknik yang sering digunakan untuk melakukan deature expression dari dataset text, 2 diantaranya adalah:
- Bag of Words
- Stop Word Filtering

## *Bag of Words Model* sebagai Representasi Text
Bag of Words merupakan teknik text processing yang memiliki beberapa karakteristik seperti di bawah ini:
- Menyederhanakan representasi text sebagai sekumpulan kata
- Mengabaikan grammar dan posisi tiap kata pada kalimat
- Text akan dikonversi menjadi lowercase dan tanda baca akan diabaikan

### Dataset
Untuk menerapkan teknik bag of words, langkah pertama yang perlu kita lakukan adalah menyiapkan dataset text yang dikenal dengan istilah corpus. Dataset text tersebut berisikan sekumpulan kalimat pendek yang ditampung oleh suatu list. Pada kesempatan kali ini, dataset text tersebut akan kita tampung dalam variabel `corpus`.

In [1]:
corpus = [
    'Linux has been around since the mid-1990s.',
    'Linux distributions include the Linux kernel.',
    'Linux is one of the most prominent open-source software.'
]

corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

### *Bag Of Words Model* dengan `CountVectorizer`

Pada SKLearn, untuk melakukan feature expression melalui Bag of Words model dapat diterapkan dengan memanfatkan CountVectorizer.
- Import module `CountVectorizer` dari `sklearn.feature_extraction.text`
- Membentuk object `CountVectorizer()` yang ditampung oleh variabel `vectorizer`
- Memanggil method fit_transform dari object `vectorizer` yang akan kita terapkan terhadap `corpus`
- Menerapkan method `todense()`untuk mengonversi hasil dari object `CountVecorizer()` menjadi suatu array 2 dimensi

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]],
       dtype=int64)

- Bagian di atas merupakan hasil array 2 dimensi dimana setiap barisnya merepresentasikan kemunculan setiap kata yang ada pada kalimat dalam corpus. Urutan kata yang direpresentasikan sudah tersusun secara alfabetikal. Untuk melihat isi dari vectorizer kita dapat memanggil `vectorizer.get_feature_names()`

In [3]:
vectorizer.get_feature_names()

['1990s',
 'around',
 'been',
 'distributions',
 'has',
 'include',
 'is',
 'kernel',
 'linux',
 'mid',
 'most',
 'of',
 'one',
 'open',
 'prominent',
 'since',
 'software',
 'source',
 'the']

- Setiap kata yang ditampung di dalam bag juga dikenal dengan istilah token
- Setiap token tidak diurutkan berdasarkan urutannya di dalam kalimat, namun diurutkan secara alfabetikal.
- Semua case pada setiap token menjadi lower case
- Array yang berisikan sekumpulan nilai bilangan 0, 1, 2, dll merepresentasikan jumlah kemunculan setiap token pada kalimat.

### *Euclidean Distance* untuk Mengukur Kedekatan/Jarak Antar Dokumen (Vector)

Bag of Words dapat membantu proses training dari suatu model atau algoritma machine learning. Dengan bag of words, suatu algoritma machine learning dapat menjadi lebih mudah dalam mengukur euclidean distance atau jarak kedekatan/kemiripan antar dokumen.

In [4]:
from sklearn.metrics.pairwise import euclidean_distances

for i in range(len(vectorized_X)):
    for j in range(i, len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i], vectorized_X[j])
        print(f'Jarak dokumen {i+1} dan {j+1}: {jarak}')

Jarak dokumen 1 dan 2: [[3.16227766]]
Jarak dokumen 1 dan 3: [[3.74165739]]
Jarak dokumen 2 dan 3: [[3.46410162]]


## *Stop  Word Filtering* pada *Text*
*Stop Word Filtering* merupakan teknik text processing yang menyederhanakan representasi text dengan mengabaikan beberapa kata seperti determiners (the, a, an), auxiliary verbs (do, be, will), dan prepositions (on, in, at).

### Dataset

In [5]:
corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the Linux kernel.',
 'Linux is one of the most prominent open-source software.']

### *Stop Word Filtering* dengan `CountVectorizer`
Stop Word Filtering juga dapat diterapkan dengan memanfaatkan `CountVectorizer`.
- Import module `CountVectorizer` dari `sklearn.feature_extraction.text`
- Membentuk object `CountVectorizer()` yang disertai oleh parameter `stop_words='english'`. Parameter tersebut disertakan untuk melakukan stop word filtering terhadap kalimat dalam bahasa Inggris. Hasil object `CountVectorizer` akan ditampung oleh variabel `vectorizer`
- Memanggil method fit_transform dari object `vectorizer` yang akan kita terapkan terhadap `corpus`
- Menerapkan method `todense()`untuk mengonversi hasil dari object `CountVecorizer()` menjadi suatu array 2 dimensi

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english')
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 2, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 1, 1, 1]], dtype=int64)

- Bagian di atas merupakan hasil array 2 dimensi dimana setiap barisnya merepresentasikan kemunculan setiap kata yang ada pada kalimat dalam corpus. Untuk melihat isi dari vectorizer kita dapat memanggil `vectorizer.get_feature_names()`

In [7]:
vectorizer.get_feature_names()

['1990s',
 'distributions',
 'include',
 'kernel',
 'linux',
 'mid',
 'open',
 'prominent',
 'software',
 'source']

- Setiap token tidak diurutkan berdasarkan urutannya di dalam kalimat, namun diurutkan secara alfabetikal.
- Ukuran array yang dihasilkan menjadi lebih kecil karena telah dilakukan stop word filtering sehingga kata-kata seperti 
`around, been, has, is, most, of, one, since, dan the` dikeluarkan karena merupakan stop word.
- Semua case pada setiap token menjadi lower case
- Array yang berisikan sekumpulan nilai bilangan 0, 1, 2, dll merepresentasikan jumlah kemunculan setiap token pada kalimat.