# NLP Data Pre-Processing

## Setup

Library ini akan digunakan untuk melakukan pemrosesan text bahasa indonesia.

In [None]:
!pip install Sastrawi

## Load Data

Data yang akan digunakan merupakan data twitter yang sudah dikumpulkan sebelumnya dan disimpan ke dalam format `csv`. Data ini di load menggunakan library `pandas`.

In [33]:
import pandas as pd

# load data dari file csv
data = pd.read_csv('../data/mini_dataset.csv')

data

Unnamed: 0,Id,Sentiment,Acara TV,Jumlah Retweet,Text Tweet
0,1,positive,HitamPutihTransTV,12,"Undang @N_ShaniJKT48 ke hitamputih, pemenang S..."
1,2,positive,HitamPutihTransTV,6,Selamat berbuka puasa Semoga amal ibadah hari ...
2,3,positive,HitamPutihTransTV,9,"Ada nih di trans7 hitam putih, dia dpt penghar..."
3,4,positive,HitamPutihTransTV,2,selamat ya mas @adietaufan masuk hitamputih
4,5,positive,HitamPutihTransTV,1,Asiknya nonton Hitam Putih Trans7
5,6,positive,HitamPutihTransTV,2,@TRANS7 acara paling komplit dan menarik apala...
6,7,positive,HitamPutihTransTV,1,hitam putih T7 inspiratif banget
7,8,positive,HitamPutihTransTV,3,Suka banget dengan acara hitam putih
8,9,positive,HitamPutihTransTV,0,Keren lu bro #HitamPutihTrans7
9,10,positive,HitamPutihTransTV,15,"Tadi ada yg liat hitam putih di trans7 ga, Ada..."


Pada data ini terdapat 5 kolom yaitu:

| Nama Kolom | Keterangan |
| ---------- | ---------- | 
|**`Id`** | Id data tweet |
|**`Sentiment`** | Label sentiment untuk training data |
|**`Jumlah Retweet`** | Jumlah data retweet per tweet |
|**`Text Tweet`** | Data text tweet yang diambil |

In [7]:
# melihat data pada index 0
data['Text Tweet'][0]

'Undang @N_ShaniJKT48 ke hitamputih, pemenang SSK JKT48 harusnya mJKT48 ini lebih Layak di Undang karena prestasinya'

In [4]:
TextTweet = data['Text Tweet']

TextTweet

0     Undang @N_ShaniJKT48 ke hitamputih, pemenang S...
1     Selamat berbuka puasa Semoga amal ibadah hari ...
2     Ada nih di trans7 hitam putih, dia dpt penghar...
3           selamat ya mas @adietaufan masuk hitamputih
4                     Asiknya nonton Hitam Putih Trans7
5     @TRANS7 acara paling komplit dan menarik apala...
6                      hitam putih T7 inspiratif banget
7                  Suka banget dengan acara hitam putih
8                        Keren lu bro #HitamPutihTrans7
9     Tadi ada yg liat hitam putih di trans7 ga, Ada...
10    Hitam putih bego, haruka diundang bentar biar ...
11    Miris liat pemerintah, Juara angkat berat se-a...
12    Juara 1 angkat berat Se-Asia, tdk menerima had...
13    haruka lain kali kalau diundang ke hitam putih...
14    Berasa aneh nonton acara Hitam Putih tapi peno...
15    sedih dengar curhatanmu, Roxana. Semoga Tuhan ...
16    Miris ketika anak Indonesia kesulitan mengguna...
17    Sombongnya mentang2 kaya pake diumumkan, s

## Remove URL, Hashtag, Mention Emoji

Informasi URL, hastag, dan emoji merupakan informasi yang tidak banyak digunakan di dalam analsis. Sehingga dapat dihapus dari text yang kita miliki.

In [25]:
# import library yang digunakan untuk cleansing
import preprocessor as p

# membuat list kosong untuk menyimpan hasil
clean_text = []

# membuat for loop untuk melakukan cleansing pada setiap elemen
for text in TextTweet:
    clean_text.append(p.clean(text))

# melihat hasil cleansing
clean_text[0]

'Undang ke hitamputih, pemenang SSK JKT48 harusnya mJKT48 ini lebih Layak di Undang karena prestasinya'

## Lowercasing

Dalam analisis data, besar kecil merupakan hal yang sensitif, sehingga penting untuk melakukan penyeragaman pada besar kecil huruf data text.

In [11]:
# membuat list kosong untuk menyimpan hasil 
lower_text = []

# membuat loop untuk melakukan penyeragaman elemen
for text in clean_text:
    lower_text.append(text.lower())

# melihat hasil cleansing
lower_text[0]

'undang ke hitamputih, pemenang ssk jkt48 harusnya mjkt48 ini lebih layak di undang karena prestasinya'

## Remove Stopwords

Tidak semua kata memiliki makna, pada kata yang tidak memiliki makna berarti dapat dihilangkan untuk dapat membuat analisis menjadi lebih sederhana.

In [41]:
# import library untuk menghilangkan stopword
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory, ArrayDictionary, StopWordRemover

# membuat object untuk menghilankan stopwords
stop_factory = StopWordRemoverFactory()

# melihat kata-kata yang terdapat pada stopwords
print(stop_factory.get_stop_words())

['yang', 'untuk', 'pada', 'ke', 'para', 'namun', 'menurut', 'antara', 'dia', 'dua', 'ia', 'seperti', 'jika', 'jika', 'sehingga', 'kembali', 'dan', 'tidak', 'ini', 'karena', 'kepada', 'oleh', 'saat', 'harus', 'sementara', 'setelah', 'belum', 'kami', 'sekitar', 'bagi', 'serta', 'di', 'dari', 'telah', 'sebagai', 'masih', 'hal', 'ketika', 'adalah', 'itu', 'dalam', 'bisa', 'bahwa', 'atau', 'hanya', 'kita', 'dengan', 'akan', 'juga', 'ada', 'mereka', 'sudah', 'saya', 'terhadap', 'secara', 'agar', 'lain', 'anda', 'begitu', 'mengapa', 'kenapa', 'yaitu', 'yakni', 'daripada', 'itulah', 'lagi', 'maka', 'tentang', 'demi', 'dimana', 'kemana', 'pula', 'sambil', 'sebelum', 'sesudah', 'supaya', 'guna', 'kah', 'pun', 'sampai', 'sedangkan', 'selagi', 'sementara', 'tetapi', 'apakah', 'kecuali', 'sebab', 'selain', 'seolah', 'seraya', 'seterusnya', 'tanpa', 'agak', 'boleh', 'dapat', 'dsb', 'dst', 'dll', 'dahulu', 'dulunya', 'anu', 'demikian', 'tapi', 'ingin', 'juga', 'nggak', 'mari', 'nanti', 'melainkan', '

In [72]:
# membuat objek stopwords
stopword = stop_factory.create_stop_word_remover()

# membuat list kosong untuk menyimpan hasil
no_stopwords_text = []

# membuit loop untuk menghilangkan stopwords
for text in lower_text:
    no_stopwords_text.append(stopword.remove(text))

# melihat hasil
no_stopwords_text[0]

'undang hitamputih, pemenang ssk jkt48 harusnya mjkt48 lebih layak undang prestasinya'

Jika ada kata-kata yang secara custom mau dimasukkan bisa menambahkan ke dalam dictionary secara manual

In [73]:
# menambahkan kata yang ingin dihilangkan
more_stopwords = ['undang']

# membuat stopwords yang digabungkan dengan dictionary yang sudah ada
data = stop_factory.get_stop_words() + more_stopwords
dictionary_stop = ArrayDictionary(data)
str = StopWordRemover(dictionary_stop)

# melihat hasil
print(str.remove(lower_text[0]))

ke hitamputih, pemenang ssk jkt48 harusnya mjkt48 lebih layak undang prestasinya


## Remove Punctuation

In [20]:
# import untuk ReGex
import re

# membuat fungsi regex untuk menhapus tanda baca
def remove_punct(text):
    clean_text = re.sub(r'[^\w\s]', '', text)
    return clean_text

In [21]:
remove_punct("?><:<:<:sekarang ha@ri se^^nin")

'sekarang hari senin'

In [74]:
# membuat list kosong untuk menyimpan hasil
no_punct_text=[]

# membuat loop untuk menghapus tanda pada baca pada setiap elemen
for text in no_stopwords_text:
    no_punct_text.append(remove_punct(text))

# melihat hasil
no_punct_text[0]

'undang hitamputih pemenang ssk jkt48 harusnya mjkt48 lebih layak undang prestasinya'

## Stemming

Kata dengan imbuhan menambah kompleksitas pada analisis data, terutama jika menggunakan fitur yang perlu melakukan word count. Hal ini dapat diatasi dengan mengembalikan kata ke dalam bentuk kata dasar.

In [75]:
# import library untuk mengembalikan ke dalam bentuk kata dasar
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# membuat fungsi untuk stemming
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# contoh menggunakan stemming
sentence = 'Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan dimana pempek adaan adalah barang export nomor 1'
output = stemmer.stem(sentence)
print(output)

ekonomi indonesia sedang dalam tumbuh yang bangga mana pempek ada adalah barang export nomor 1


In [76]:
# membuat list kosong untuk menyimpan hasil
stemmed_text = []

# melakukan looping untuk melakukan stemming pada setiap elemen
for text in no_punct_text:
    stemmed_text.append(stemmer.stem(text))

# melihat hasil stemming
stemmed_text[0]

'undang hitamputih menang ssk jkt48 harus mjkt48 lebih layak undang prestasi'

## Tokenize

Unit data yang text yang diperoleh biasanya di tingkat paragraf atau kalimat. Unit level tersebut terlalu besar untuk dilakukan analisis sehingga perlu di pisahkan berdasarkan spasi, hingga dapat dilakukan analisis pada tingkat kata.

In [31]:
# membuat list kosong untuk menyimpan hasil
token = []

# membuat loop untuk melakukan tokenisasi pada setiap elemen
for text in stemmed_text:
    token.append(text.split())

# melihat hasil tokenisasi
token[0]

['undang',
 'hitamputih',
 'menang',
 'ssk',
 'jkt48',
 'harus',
 'mjkt48',
 'lebih',
 'layak',
 'undang',
 'prestasi']