# NLP Data Pre-Processing

## Setup

Library ini akan digunakan untuk melakukan pemrosesan text bahasa indonesia.

In [None]:
!pip install Sastrawi

## Load Data

Data yang akan digunakan merupakan data twitter yang sudah dikumpulkan sebelumnya dan disimpan ke dalam format `csv`. Data ini di load menggunakan library `pandas`.

In [None]:
import pandas as pd

# load data dari file csv
data = pd.read_csv('../data/mini_dataset.csv')

data

Pada data ini terdapat 5 kolom yaitu:

| Nama Kolom | Keterangan |
| ---------- | ---------- | 
|**`Id`** | Id data tweet |
|**`Sentiment`** | Label sentiment untuk training data |
|**`Jumlah Retweet`** | Jumlah data retweet per tweet |
|**`Text Tweet`** | Data text tweet yang diambil |

In [None]:
# melihat data pada index 0
data['Text Tweet'][0]

In [None]:
TextTweet = data['Text Tweet']

TextTweet

## Remove URL, Hashtag, Mention Emoji

Informasi URL, hastag, dan emoji merupakan informasi yang tidak banyak digunakan di dalam analsis. Sehingga dapat dihapus dari text yang kita miliki.

In [None]:
# import library yang digunakan untuk cleansing
import preprocessor as p

# membuat list kosong untuk menyimpan hasil
clean_text = []

# membuat for loop untuk melakukan cleansing pada setiap elemen
for text in TextTweet:
    clean_text.append(p.clean(text))

# melihat hasil cleansing
clean_text[0]

## Lowercasing

Dalam analisis data, besar kecil merupakan hal yang sensitif, sehingga penting untuk melakukan penyeragaman pada besar kecil huruf data text.

In [None]:
# membuat list kosong untuk menyimpan hasil 
lower_text = []

# membuat loop untuk melakukan penyeragaman elemen
for text in clean_text:
    lower_text.append(text.lower())

# melihat hasil cleansing
lower_text[0]

## Remove Stopwords

Tidak semua kata memiliki makna, pada kata yang tidak memiliki makna berarti dapat dihilangkan untuk dapat membuat analisis menjadi lebih sederhana.

In [None]:
# import library untuk menghilangkan stopword
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory, ArrayDictionary, StopWordRemover

# membuat object untuk menghilankan stopwords
stop_factory = StopWordRemoverFactory()

# melihat kata-kata yang terdapat pada stopwords
print(stop_factory.get_stop_words())

In [None]:
# membuat objek stopwords
stopword = stop_factory.create_stop_word_remover()

# membuat list kosong untuk menyimpan hasil
no_stopwords_text = []

# membuit loop untuk menghilangkan stopwords
for text in lower_text:
    no_stopwords_text.append(stopword.remove(text))

# melihat hasil
no_stopwords_text[0]

Jika ada kata-kata yang secara custom mau dimasukkan bisa menambahkan ke dalam dictionary secara manual

In [None]:
# menambahkan kata yang ingin dihilangkan
more_stopwords = ['undang']

# membuat stopwords yang digabungkan dengan dictionary yang sudah ada
data = stop_factory.get_stop_words() + more_stopwords
dictionary_stop = ArrayDictionary(data)
str = StopWordRemover(dictionary_stop)

# melihat hasil
print(str.remove(lower_text[0]))

## Remove Punctuation

In [None]:
# import untuk ReGex
import re

# membuat fungsi regex untuk menhapus tanda baca
def remove_punct(text):
    clean_text = re.sub(r'[^\w\s]', '', text)
    return clean_text

In [None]:
remove_punct("?><:<:<:sekarang ha@ri se^^nin")

In [None]:
# membuat list kosong untuk menyimpan hasil
no_punct_text=[]

# membuat loop untuk menghapus tanda pada baca pada setiap elemen
for text in no_stopwords_text:
    no_punct_text.append(remove_punct(text))

# melihat hasil
no_punct_text[0]

## Stemming

Kata dengan imbuhan menambah kompleksitas pada analisis data, terutama jika menggunakan fitur yang perlu melakukan word count. Hal ini dapat diatasi dengan mengembalikan kata ke dalam bentuk kata dasar.

In [None]:
# import library untuk mengembalikan ke dalam bentuk kata dasar
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# membuat fungsi untuk stemming
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# contoh menggunakan stemming
sentence = 'Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan dimana pempek adaan adalah barang export nomor 1'
output = stemmer.stem(sentence)
print(output)

In [None]:
# membuat list kosong untuk menyimpan hasil
stemmed_text = []

# melakukan looping untuk melakukan stemming pada setiap elemen
for text in no_punct_text:
    stemmed_text.append(stemmer.stem(text))

# melihat hasil stemming
stemmed_text[0]

## Tokenize

Unit data yang text yang diperoleh biasanya di tingkat paragraf atau kalimat. Unit level tersebut terlalu besar untuk dilakukan analisis sehingga perlu di pisahkan berdasarkan spasi, hingga dapat dilakukan analisis pada tingkat kata.

In [None]:
# membuat list kosong untuk menyimpan hasil
token = []

# membuat loop untuk melakukan tokenisasi pada setiap elemen
for text in stemmed_text:
    token.append(text.split())

# melihat hasil tokenisasi
token[0]