# Mengenal Text Processing 

Pada sesi pembelajaran kita kali ini, kita akan mempelajari 2 macam text processing yang umum ditemui dalam bidang machine learning yaitu :
1. Bag of Words.
2. Stop Word Filtering.

Dari pembelajaran sebelumnya, kita sudah megetahui bahwa komputer atau machine tidak bisa memahami data text dengan baik. Lalu bagiamana ketika kita dihadapkan pada sekumpulan data text dalam bentuk kalimat atau dokumen? Dalam machine learning, terdapat bidang yang secara spesifik membahas dataset text, bidang ini dikenal sebagai "Natural Language Processing" atau yang biasanya disingkat sebagai NLP. Yang kita pelajari pada sesi kali ini bisa kita manfaatkan sebagai pengantar NLP.

Dalam bidang machine learning sendiri terdapat beberapa teknik yang umum digunakan untuk melakukan features extraction dari dataset text. Pada sesi pemebelajaran kali ini, kita akan mempelajari dua diantaranya, yaitu "Bag of Words" dan "Stop Word Filtering".

# Bag of Words Model sebagai Representasi Text

Bag of Words menyederhanakan representasi text sebagai sekumpulan kata serta mengabaikan grammar dan posisi tiap kata pada kalimat. Text akan dikonversi menjadi lowcase dan tanda baca akan diabaikan.

Referensi : http://en.wikipedia.org/wiki/Bag-of-words_model

# Dataset

In [10]:
# Code 01

corpus = [
    'Linux has been around since the mid-1990s.',
    'Linux distributions include the linux kernel.',
    'Linux is one of the most prominent open-source software.'
]

corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the linux kernel.',
 'Linux is one of the most prominent open-source software.']

Alur berpikir code 01 :

- Pertama-tama kita akan siapkan terlebih dahulu suatu data text. Untuk kasus kita kali ini, dataset nya berupa sekumpulan kalimat pendek. Dataset text ini juga seringkali dikenal dengan istilah "Corpus".
- Untuk kasus kita kali ini, corpus kita terdiri dari tiga kalimat pendek yaitu : kalimat pertama adalah 'Linux has been around since the mid-1990s.'. Kalimat kedua 'Linux distribuutions include the linux kernel.', dan kalimat ketiga adalah 'Linux is one of the most prominent open-source software.'.
- Ketiga kalimat tersebut akan kita tampung kedalam suatu list yang kemudian kita assign kedalam suatu variabel yang kita beri nama 'corpus'.
- Lalu terakhir kita akan coba tampilkan isi dari variabel 'corpus' tersebut.

# Bag of Words Model dengan CountVectorizer

Selanjutnya kita akan memanfaatkan "Bag of Words" untuk melakukan features extraction dari dataset yang kita miliki. Pada SkLearn, "Bag of Words" model dapat diterapkan dengan memanfatkan "Count Vectorizer".

In [11]:
# Code 02

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1],
        [0, 0, 0, 1, 0, 1, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1]],
       dtype=int64)

Alur berpikir code 02 :
- Pertama-tama kita akan akan mengimport terlebih dahulu modulnya dengan memanggil "from sklearn.feature_extraction.text import CountVectorizer".
- Lalu selanjutnya kita akan membentuk objek dari kelas "CountVectorizer" dengan memanggil "CountVectorizer()" yang akan ditampung kedalam variabel "vectorizer".
- Selanjutnya kita akan menggunakan objek "vectorizer" ini untuk menerapkan method fit transform terhadap "corpus" dataset lalu hasil yang terbentuk akan kita konversikan kedalam suatu array. Oleh karenanya, disini kita memanggil method "todense()" atau dengan kata lain method todense ini akan mengkonversikan hasil fit transform dari objek "vectorizer" tersebut menjadi suatu array dua dimensi yang diamana objek array dua dimensi terebut akan ditampung kedalam variabel "vectorized_X".
- Terakhir kita akan coba tampilkan ke layar.

Bisa kita lihat pada output code 02, hasilnya berupa array 2 dimensi yang setiap barisnya akan merepresentasikan tiap kalimat yang berada dalam corpus yang kita miliki. 

In [12]:
# Code 03

vectorizer.get_feature_names()

['1990s',
 'around',
 'been',
 'distributions',
 'has',
 'include',
 'is',
 'kernel',
 'linux',
 'mid',
 'most',
 'of',
 'one',
 'open',
 'prominent',
 'since',
 'software',
 'source',
 'the']

Alur berpikir code 03 :

- Ketika kita memanggil method "get_feature_names" maka akan dikembalikan sekumpulan kata yang berada dalam bag atau keranjang atau lebih jelasnya yaitu sekumpulan kata dalam keranjang atau dalam bag. Jika kita perhatikan pada hasil code 03.
- kumpulan kata tersebut sudah tidak lagi diurutkan berdasarkan urutan kalimat, melainkan sudah diurutkan berdasarkan alphabetical order. 
- Jika kita perhatikan lagi pada hasil output 03, semua casenya menjadi lower case artinya  sudah tidak ada lagi huruf besar atau uppercasenya.
- Setiap kata yang ditamung dalam bag atau keranjang tersebut, juga dikenal dengan istilah "token".
- Nilai pada array tersebut tidak hanya bernilai nol dan satu. Setiap nilai tersebut merepresentasikan jumlah kemunculan token/kata tertentu pada kalimat.

# Euclidean Distance untuk Mengukur Kedekatan/Jarak Antar Dokumen (Vector)

Pada kali ini kita akan mempelajari maksud dari representasi dari "Bag of Word". Dengan representasi dari "Bag of Word", suatu algoritma machine learning dapat dengan lebih mudah mengukur kedekatan atau kemiripan antar dokumen.

Untuk mengukur kedekatannya, kita akan menggunakan "Euclidean Distance".

In [13]:
# Code 04

from sklearn.metrics.pairwise import euclidean_distances

for i in range(len(vectorized_X)):
    for j in range(i, len(vectorized_X)):
        if i == j:
            continue
        jarak = euclidean_distances(vectorized_X[i], vectorized_X[j])
        print(f'Jarak dokumen {i+1} dan {j+1}: {jarak}')

Jarak dokumen 1 dan 2: [[3.16227766]]
Jarak dokumen 1 dan 3: [[3.74165739]]
Jarak dokumen 2 dan 3: [[3.46410162]]


Alur berpikir code 04 :
- Pertama-tama kita akan mengimport terlebih dahulu modulnya dengan memanggil "from sklearn.metrics.pairwise import euclidean_distances".
- Lalu berikutnya, kita akan coba untuk mengukur jarak antar kalimatnya berarti kalimat pertama akan diukur kedekatannya dengan kalimat kedua, lalu kalimat pertama juga akan diukur kedekatan atau jaraknya dengan kalimat ketiga. Selanjutnya, kita juga akan mengukur kedekatan atau jarak antara kalimat kedua dengan kalimat ketiganya.
- Proses tersebut kita akan lakukan dengan memanfaatkan for loop statement (lihat pada code 04).

Bisa kita lihat berdasarkan hasil output 04, jarak antara dokumen pertama dan kedau adalah 3.16227766, lalu jarak antara dokumen pertama dengan dokumen ketiga adalah 3.74165739, dan jarak antara dokumen keduan dengan dokumen ketiga adalah 3.46410162. Jika kita perhatikan disini, nilai terkecilnya adalah jarak antar dokumen pertama dan kedua atau dengan kata lain disini kita bisa simpulkan bahwa tingkat kemiripan antara dokumen pertama dengan dokumen kedua adalah yang tertinggi diantara ketiga dokumen tersebut.

# Stop Word Filtering pada Text

Selanjutnya yang akan kita pelajari adalah "Stop Word Filtering". Stop Word Filtering menyederhanakan representasi text dengan mengabaikan beberapa kata seperti determiners (the, a, an), auxiliary verbs (do, be, will), dan prepositions (on, in, at). 

Stop Word Filtering juga cukup umum ditemui dalam bidang NLP atau Natural Language Processing.

Referensi: https://en.wikipedia.org/wiki/Stop_word

# Dataset

Untuk kasus kali ini kita akan kembali menggunakan corpus atau dataset yang sudah pernah kita gunakan sebelumnya.

In [14]:
# Code 05

corpus

['Linux has been around since the mid-1990s.',
 'Linux distributions include the linux kernel.',
 'Linux is one of the most prominent open-source software.']

Jika kita lihat pada hasil output code 05, terdapat beberapa stop word yaitu "the", "has", "been", "is", dan "of" yang merupakan stop word yang akan kita abaikan. 

# Stop Word Filtering dengan CountVectorizer

Disini kita kana memanfaatkan Stop Word Filtering untuk mengeluarkan stopword dari corpus yang kita miliki. Pada SkLearn, Stop Word Filtering ini juga dapat diterapkan dengan memanfatkan CountVectorizer.

In [15]:
# Code 06

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(stop_words='english')
vectorized_X = vectorizer.fit_transform(corpus).todense()
vectorized_X

matrix([[1, 0, 0, 0, 1, 1, 0, 0, 0, 0],
        [0, 1, 1, 1, 2, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 1, 1, 1, 1]], dtype=int64)

Alur berpikir code 06 :
- Pertama-tama kita akan mengimport terlebih dahulu modulnya dengan memanggil "from sklearn.feature_extraction.text import CountVectorizer".
- Lalu selanjutnya kita akan membentuk terlebih dahulu objek dari class Count Vectorizer tersebut. Yang berbeda kali ini adalah sewaktu kita membentuk objek Count Vectorizer, kita juga akan menyertakan parameter "stop_words" yang kita beri nilai 'english' karena pada kasus kali ini untuk melakukan stop word filtering untuk bahasa inggris. Lalu selanjutnya objek Count Vectorizer yang terbentuk akan kita tampung kedalam variabel "vectorized".
- Objek "vectorized" ini kemudian akan kita panggil untuk menerapkan "fit_tranform" terhadap corpus yang kita miliki dan hasil tranformnya kita akan konversikan ke dalam array dua dimensi. Oleh karenanya, kita akan memnaggil method ".todense()" dan array dua dimensi yang terbentuk akan kita tampung kedalam variabel "vectorized_X".
- Lalu kita tampilkan hasilnya.

Berdasarkan hasil output code 06, angka-angka pada baris pertama, kedua, dan ketiga tersebut merepresentasikan kalimat pertama, kalimat kedua, dan kalimat ketiga. Jika kita perhatikan lagi pada hasil output code 06, ukurannya jauh lebih kecil bila dibandingkan sebelumnya.

Untuk melihat representasinya dengan lebih rinci, maka kita bisa panggil method "vectorizer.get_feature_names()" (lihat pada code 07).

In [16]:
# Code 07

vectorizer.get_feature_names()

['1990s',
 'distributions',
 'include',
 'kernel',
 'linux',
 'mid',
 'open',
 'prominent',
 'software',
 'source']

Berdasarkan hasil output code 07 merupakan kumpulan kata atau tokens yang sudah kita filtering stop wordsnya. Bisa kita lihat pada hasil code 07 tersebut bahwa kita sudah tidak lagi menyertakan stop words dalam kumpulan kata atau dalam token yang kita miliki. Alhasil, kita akan memperoleh suatu representasi dari suatu kalimat yang lebih sederhana.  

Untuk pembelajaran lebih lengkapnya, jangan lupa kunjungi channel youtube Indonesia Belajar pada link berikut : https://www.youtube.com/watch?v=U30sF4m0bd0 dan jangan lupa untuk like, comment, dan share.

# "Banyak Belajar, Biar Bisa Bantu Banyak Orang"

Written by : Clarence Code Pianist