# **TEXT MINING  4 - FILTERING AND STOPWORD REMOVAL**

Build Date | April, 7th 2020
--- | ---
Male Tutor | Gustian Herlambang & Pahmi Alifya Bahri
Female | Siti Rahmah & Imelda Putri Anggraini

# **Pengertian**

Filtering adalah proses menyaring kata atau memilah kata yang tidak berguna dalam suatu dokumen atau teks. Kata-kata itu dihapus atau dibuang karena dinilai tidak memiliki arti dalam proses `Text Mining`. Misalnya :


contoh |
--- |
kuliah daring adalah bentuk dari usaha pemerintah untuk meredam COVID-19 |


Dalam proses filtering kita memerlukan `stopword` dimana stopword ini akan digunakan sebagai patokan kata mana saja yang harus dihilangkan dalam suatu kalimat atau dokumen. Misal kata yang perlu dihilangkan dalam suatu teks adalah kata penghubung 'di', 'ke', 'daripada', 'adalah', 'kepada', dsb. Kumpulan stopword ini juga sering di sebut dengan `wordlist`. Lalu bagaimana jika kalimat diatas jika di filter ? Kita akan membuang kata **adalah, dari, untuk**.


contoh |
--- |
kuliah daring  bentuk usaha pemerintah meredam COVID-19 |


Selanjutnya kita akan mengimplementasikannya kedalam kodingan. 

## **A. Filtering dengan `NLTK`**

Langkah awalnya kita import terlebih dahulu library `nltk`. Ketikkan kode berikut :

> `import nltk`

Disini kita tetap harus melakukan `tokenizing` dan `case folding` agar kalimat kita memberikan akurasi yang baik. Untuk itu kita import fungsi `sent_tokenize` dan `word_tokenize` dari library `nltk`. Ketikkan kode berikut :

> `from nltk.tokenize import sent_tokenize, word_tokenize`

selanjutnya, kita import fungsi `stopword`. Ketikkan kode berikut :
> `from nltk.corpus import stopwords`

Kita masih menggunakan kalimat yang sama seperti di modul pertemuan ke 2. Yaitu **"Fakultas yang ada di Universitas Pakuan ada 6 diantaranya adalah Fakultas Teknik, MIPA, FISIB, FKIP, FH, dan Pasca-Sarjana"**. Yang akan dideklarasikan dalam variable **teks**. Ketikkan kode berikut :
> `teks = "Fakultas yang ada di Universitas Pakuan ada 6 diantaranya adalah Fakultas Teknik, MIPA, FISIB, FKIP, FH, dan Pasca-Sarjana"`

 Disini kita akan menggunakan library `string` nah jangan lupa import library nya terlebiih dahulu.
> `import string`

Kita lakukan proses case folding terlebih dahulu dengan kode berikut dan disimpan dalam variable **proses_cf**.
> `proses_cf = teks.translate(str.maketrans('','', string.punctuation)).lower()`

Lalu kita lakukan tokenizing dan disimpan dalam variable **proses_token**. Ketikkan kode berikut :
> `proses_token = nltk.tokenize.word_tokenize (proses_cf)`

proses melihat list stopword yang ada di nltk, lalu set bahasanya di bahasa Indonesia. Ketikkan kode berikut :
> `listStopwords = set(stopwords.words('Indonesian'))`

Proses menghapus kata yaitu menggunakan argumen yang disimpan dalam variable **removed**. Lalu kita menggunakan perulangan `for`. Cara membacanya adalah *untuk t di variable proses_token, jika tidak ada teks didalam list stopword maka hapus dan gabungkan kembali*. Ketikkan kode berikut : ( **perhatikan indentasi** sperti contoh dibawah ini. Ingat Python itu `case sensitive` )

> `removed = []`

>`for t in proses_token:`
    >>> `if t not in listStopwords:`
        >>>> `removed.append(t)`

Jika sudah, mari kita cetak hasilnya dengan mengetikkan kode berikut :
    
> `print(removed)`

## **B. Filtering dengan `Sastrawi`**

Kita telah berhasil melakukan proses filtering dengan `nltk`. Kali ini kita akan menggunakan library `Sastrawi` khusus bahasa Indonesia. Tentunya `wordlist` nya akan lebih banyak dan telah disesuaikan. 

### **1. Melihat Daftar Wordlist** 

Nah, disini kita juga bisa menggunakan beberapa fungsi , misalnya kali ini kita akan menggunakan fungsi `StopWordRemover`. Ketikkan kode berikut untuk mengimport Sastrawi dan fungsinya : 

> `from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory`

Kita akan menampung fungsi tersebut dalam variable **factory**. Ketikkan kode berikut :
> `factory = StopWordRemoverFactory()`

Lalu kita deklarasikan variable **daftar_stopword** untuk mendapatkan daftar stopword dari Sastrawi. Ketikkan kode berikut :

> `daftar_stopword = factory.get_stop_words()`

Jika sudah kita tampilkan daftarnya. Ketikkan kode berikut ini :
    
> `print(daftar_stopword)`

### **2. Filtering Dengan Sastrawi**

Kita awali dengan import library dari Sastrawi. Ketikkan kode berikut : 
> `from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory`

Lakukan tokenizing menggunakan library `nltk`. Ketikkan kode berikut : ( **kita tidak perlu import library lagi karena sudah dilakukan diatas**)
>`from nltk.tokenize import word_tokenize`

Kita akan menampung fungsi tersebut dalam variable **factory**. Ketikkan kode berikut :
> `factory = StopWordRemoverFactory()`

Mendeklarasikan variable **stopword** untuk menampung fungsi pembuatan `stopword_remover`. Ketikkan kode berikut :
> `stopword = factory.create_stop_word_remover()`

Deklarasikan variable **kalimat** untuk menampung teks baru. Ketikkan kode berikut :
    
> `kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."`

Lakukan proses case folding. Ketikkan kode berikut :
> `kalimat_cf =kalimat.translate(str.maketrans('','',string.punctuation)).lower()`

Proses melakukan stopword dengan mendeklarasikan variable **kalimat_sw** 
> `kalimat_sw = stopword.remove(kalimat_cf)`


Jangan lupa lakukan tokenisasi. Ketikkan kode berikut :
    
> `kalimat_token = nltk.tokenize.word_tokenize(kalimat_sw)`

Cetak hasilnya. Ketik kode berikut :
> `print(kalimat_token)`

### 3.Menambah Stopword atau WordList sendiri

Adalakanya dalam riset kita membutuhkan wordlist sendiri, karena didalam library yang bersangkutan tidak ada. Maka kita bisa mendeklarasikannya. 

Kodingannya masih sama dengan yang diatas namun ada beberapa penambahan yaitu variable **more_stopword** misalnya. Mari lihat pada kodingan dibawah ini.

In [None]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory, StopWordRemover, ArrayDictionary
from nltk.tokenize import word_tokenize

stop_factory = StopWordRemoverFactory().get_stop_words()

deklarasikan variable **more_stopword** dan isilah wordlist apa yang mau ditambahkan. Disini saya mengisi dengan **daring dan online** Ketikkan kode berikut :
    
> `more_stopword = ['daring', 'online']`


In [None]:
kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."

Gabungankan wordlist yang sudah dideklarasikan dengan variable **data**. Ketikkan kode berikut :
> `data = stop_factory + more_stopword`


In [None]:
#kode lanjutan
dictionary = ArrayDictionary(data)
str = StopWordRemover(dictionary)
kalimat_sw = stopword.remove(kalimat)
tokens = nltk.tokenize.word_tokenize(str.remove(kalimat_sw))
print(tokens)

-- **Tetap Dirumah and Stay Safe** --