<a href="https://colab.research.google.com/github/B21-CAP0133/verify-android-app/blob/master/ML-dir/02_VERIFY_Data_Cleansing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Cleansing

Melakukan data cleansing terhadap verify_dataset yang terdiri atas:

1. Case folding.
2. Menghilangkan kata-kata di dalam kurung.
3. Menghilangkan _punctuation_.
4. Menghilangkan stopwords.
5. Melakukan _stemming_.

Melakukan import library yang dibutuhkan.

In [1]:
!pip install Sastrawi

Collecting Sastrawi
[?25l  Downloading https://files.pythonhosted.org/packages/6f/4b/bab676953da3103003730b8fcdfadbdd20f333d4add10af949dd5c51e6ed/Sastrawi-1.0.1-py2.py3-none-any.whl (209kB)
[K     |████████████████████████████████| 215kB 3.9MB/s 
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [2]:
import pandas as pd
import re
import string
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

In [3]:
df = pd.read_csv('verify_dataset.csv')

df.sample(5)

Unnamed: 0,Judul,Label
1654,SMS Bencana Akhir Tahun Yang Dikeluarkan BMKG,1
7128,FC Utrecht Diklaim Batal Rekrut Bagus Kahfi,0
1570,"Jenazah Siyono utuh, berarti ybs Mati Syahid",1
5812,Anggota DPR Sebut Bali Harus Lockdown Cegah Vi...,0
1842,49 WN Tiongkok yang Masuk ke Sultra Ternyata O...,0


## Text Cleaning

Text cleaning terdiri atas data cleansing 1, 2, dan 3. Ketiga tahap tersebut dipilih berdasarkan asesmen yang dilakukan saat melakukan eksplorasi data.

Membuat fungsi text_cleaning.

In [4]:
def text_cleaning(judul):
  judul = judul.lower()                                               # casefolding
  judul = re.sub('\(.*?\) | \[.*?\]', '', judul)                      # kata di dalam kurung
  judul = re.sub('[%s]' % re.escape(string.punctuation), '', judul)   # punctuation
  judul = re.sub('[‘’“”…]', '', judul)                                # tanda kutip

  return judul

Mengaplikasikan fungsi text_cleaning ke dalam dataset.

In [5]:
df['Judul'] = df['Judul'].apply(text_cleaning)

df.sample(5)

Unnamed: 0,Judul,Label
7195,hasil f1 gp abu dhabi verstappen juara seri te...,0
3135,demi palestina cristiano ronaldo sumbang rp 21...,1
2081,marak penculikan anak kecil dengan pelaku sadi...,1
2445,mark zuckerberg ancam tutup facebook di indone...,1
6955,video monster hunter dari gim menuju layar lebar,0


## Stopwords

Tahap ini berarti menghilangkan kata-kata yang sering muncul dan tidak terlalu berpengaruh kepada makna kalimat. Tahap ini menggunakan library sastrawi.

Load stopword dari sastrawi.

In [6]:
factory = StopWordRemoverFactory()
new_stopwords = ['yg', 'dgn', 'dlm', 'nya']
stopwords = factory.get_stop_words() + new_stopwords
stopwords = factory.create_stop_word_remover()

#for stopword in stopwords:
#  print(stopword)

Membuat fungsi stopwords_removal.

In [7]:
def stopwords_removal(judul):
  judul = stopwords.remove(judul)

  return judul

Mengaplikasikan fungsi stopwords_removal kepada dataset.

In [8]:
df['Judul'] = df['Judul'].apply(stopwords_removal)

df.sample(5)

Unnamed: 0,Judul,Label
2386,buntut penerapan psbb palembang batas operasio...,1
4374,rumah terbakar kog malah disuruh jarah,1
4684,krn pemerintahnya ngeyel rakyatnya bandel akh...,1
5267,hoax bisa membunuh mematikan,1
4698,peaceful days in shanghai,1


## Steming

Tahap steming merupakan penghapusan imbuhan dalam suatu kata. Tahap ini juga menggunakan library sastrawi.

In [9]:
factory = StemmerFactory()
stemmer = factory.create_stemmer()

Mengaplikasikan stemmer ke dalam dataset.

In [10]:
df['Judul'] = df['Judul'].apply(lambda judul:stemmer.stem(judul))

df.sample(5)

Unnamed: 0,Judul,Label
1655,foto prabowo pakai uskup gereja,1
3830,akun facebook nama kang rijanto bukan milik bu...,1
600,bukan sebab vaksin siswa mi palembang tewas ra...,0
1508,pesan beranta kantor pusat pt kawan lama tutup...,1
2633,david beckham pakai kaos tulis free west papua...,1


## Save verify_dataset_clean

Menyimpan dataset yang telah melalui tahap text_cleansing.

In [11]:
df.to_csv('verify_dataset_clean.csv', index=False)