# **Text preprocessing**
Merupakan salah satu implementasi dari text mining. Text mining sendiri adalah suatu kegiatan menambang data, dimana data yang biasanya diambil berupa text.

Text preprocessing adalah suatu proses untuk menyeleksi data text agar menjadi lebih terstruktur lagi dengan melalui serangkaian tahapan yang meliputi tahapan case folding, tokenizing, filtering dan stemming


# **CaseFolding**
Proses case folding adalah proses mengubah seluruh huruf menjadi huruf kecil. Pada proses ini karakter-karakter 'A'-'Z' yang terdapat pada data diubah kedalam karakter 'a'-'z'.

In [None]:
kalimat = '''Indonesia itu indah, terdapat pulau besar seperti Jawa, 
Kalimantan, Sumatera, Sulawesi, Bali, Papua'''
lower_case = kalimat.lower()
print(lower_case)
# output
# berikut ini adalah 5 negara dengan pendidikan terbaik di dunia adalah korea selatan, jepang, singapura, hong kong, dan finlandia.

indonesia itu indah, terdapat pulau besar seperti jawa, kalimantan, sumatera, sulawesi, bali, papua


# **Data Cleaning**


In [None]:
# cleaning non alpha-numeric
import re # impor modul regular expression
txt = 'Hi! @Mukidi, apa kabar? #sapa_Pagi.'
print(re.sub(r'[^\w]',' ',txt))
# atau jika ingin exclude titik dan koma 
# re.sub(r'[^.,a-zA-Z0-9 \n\.]','',txt)

Hi   Mukidi  apa kabar   sapa_Pagi 


In [None]:
# Cleaning hashTags dalam posting media sosial
tweet = '#AndaiSajaIaTahu #ApaYangAkuRasah... #AlayersTweet #d2d'

getHashtags = re.compile(r"#(\w+)")
print("Tags = {0}".format(re.findall(getHashtags, tweet)))


Tags = ['AndaiSajaIaTahu', 'ApaYangAkuRasah', 'AlayersTweet', 'd2d']


In [None]:
# Extracting atau replacing eMail.
emailPattern = re.compile(r'[\w._%+-]+@[\w\.-]+\.[a-zA-Z]{2,4}')

txt = '''Contact kami di admin@nlpindonesia.org, nlp.indonesia@sci.yahoo.co.id, 
atau nlp_nusantara@internet.net'''

print( re.sub(emailPattern, ' ', txt) )# clean email
eMailS = re.findall( emailPattern, txt )
print( 'email yang ditemukan: ', str(eMailS) )

Contact kami di  ,  , atau  
email yang ditemukan:  ['admin@nlpindonesia.org', 'nlp.indonesia@sci.yahoo.co.id', 'nlp_nusantara@internet.net']


In [None]:

kalimat = "Terdapat 5 jenis ikan dikolam itu, lele, gurami, nila, patin, mas"
hasil = re.sub(r"\d+", "", kalimat)
print(hasil)

Terdapat  jenis ikan dikolam itu, lele, gurami, nila, patin, mas


In [None]:
kalimat="Terdapat 5 jenis ikan di kolam itu lele, gurami, nila, patin, mas 3"
hasil=re.compile(r"\d+")
# print(hasil)
angka = re.findall(hasil,kalimat)
print('Angka yang ditemukan: ', str(angka))

Angka yang ditemukan:  ['5', '3']


In [None]:
kalimat="Terdapat 5 jenis ikan di kolam itu lele, gurami, nila, patin, mas 3"
hasil=re.sub(r'[^0-9 \n\.]', "", kalimat)
print(hasil)

 5           3


In [None]:
# Website URLS http(s) .... untuk ftp trivial
urlPattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')

txt = 'website reguler expression & my site : https://www.regular-expressions.info/ & https://tau-data.id'
print(re.sub(urlPattern,' ',txt))# clean urls

URLs = re.findall(urlPattern,txt)# get URLs
print('URL yang ditemukan: ',str(URLs))

website reguler expression & my site :   &  
URL yang ditemukan:  ['https://www.regular-expressions.info/', 'https://tau-data.id']


# **Tokenizing**
Tokenizing adalah proses pemisahan teks menjadi potongan-potongan yang disebut sebagai token untuk kemudian di analisa. Kata, angka, simbol, tanda baca dan entitas penting lainnya dapat dianggap sebagai token. Didalam NLP, token diartikan sebagai “kata” meskipun tokenize juga dapat dilakukan pada paragraf maupun kalimat

***Tokenizing kata***

In [None]:
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# impor word_tokenize dari modul nltk

from nltk.tokenize import word_tokenize 
 
kalimat = "Kita sedang belajar Data Mining, materi pre-processing."
 
tokens = nltk.tokenize.word_tokenize(kalimat)
print(tokens)
# ouput 
# ['Kita', 'sedang', 'belajar', 'Data', 'Mining', ',', 'materi', 'pre-processing', '.']

['Kita', 'sedang', 'belajar', 'Data', 'Mining', ',', 'materi', 'pre-processing', '.']


In [None]:
#token kata bisa digunakan untuk menghitung kwmunculan kata
from nltk.probability import FreqDist
kalimat = '''Lala sering sekali berbelanja online terutama pada saat pandemi. 
Menurut lala belanja online lebih praktis daripada belanja di pasar.'''

tokens = nltk.tokenize.word_tokenize(kalimat)
kemunculan = nltk.FreqDist(tokens)
print(kemunculan.most_common())

[('online', 2), ('.', 2), ('belanja', 2), ('Lala', 1), ('sering', 1), ('sekali', 1), ('berbelanja', 1), ('terutama', 1), ('pada', 1), ('saat', 1), ('pandemi', 1), ('Menurut', 1), ('lala', 1), ('lebih', 1), ('praktis', 1), ('daripada', 1), ('di', 1), ('pasar', 1)]


In [None]:
from nltk.probability import FreqDist
kalimat="Lala sering sekali berbelanja online terutama pada saat pandemi . Menurut lala belanja online lebih praktis daripada belanja di pasar."

lower_case=kalimat.lower()
kal=re.sub(r'[^\w]',' ',lower_case)

tokens=nltk.tokenize.word_tokenize(kal)
kemunculan=nltk.FreqDist(tokens)
print(kemunculan.most_common())

[('lala', 2), ('online', 2), ('belanja', 2), ('sering', 1), ('sekali', 1), ('berbelanja', 1), ('terutama', 1), ('pada', 1), ('saat', 1), ('pandemi', 1), ('menurut', 1), ('lebih', 1), ('praktis', 1), ('daripada', 1), ('di', 1), ('pasar', 1)]


**Tokenizing Kalimat**

In [None]:
# impor sent_tokenize dari modul nltk
from nltk.tokenize import sent_tokenize
kalimat = '''Kita sedang belajar Data Mining, materi pre-processing. 
sub materi tokenizing. menyenangkan bukaaaan'''
 
tokens = nltk.tokenize.sent_tokenize(kalimat)
print(tokens)
# ouput
# ['Kita sedang belajar Data Mining, materi pre-processing.', 'sub materi tokenizing.', 'menyenangkan bukaaaan']

['Kita sedang belajar Data Mining, materi pre-processing.', 'sub materi tokenizing.', 'menyenangkan bukaaaan']


# **Filtering (Stopword Removal)**
Stopword adalah kata umum yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Contoh stopword dalam bahasa Indonesia adalah “yang”, “dan”, “di”, “dari”, dll. Makna di balik penggunaan stopword yaitu dengan menghapus kata-kata yang memiliki informasi rendah dari sebuah teks, kita dapat fokus pada kata-kata penting sebagai gantinya.


In [None]:
from nltk.corpus import stopwords
 
kalimat = '''Lala sering sekali berbelanja online terutama pada saat pandemi. 
Menurut lala belanja online dan lebih praktis daripada belanja di pasar.'''

tokens = word_tokenize(kalimat)
listStopword =  set(stopwords.words('indonesian'))
 
removed = []
for t in tokens:
    if t not in listStopword:
        removed.append(t)
 
print(removed)

['Lala', 'berbelanja', 'online', 'pandemi', '.', 'Menurut', 'lala', 'belanja', 'online', 'praktis', 'belanja', 'pasar', '.']


# **Stemming**
Stemming adalah proses pemetaan dan penguraian bentuk dari suatu kata menjadi bentuk kata dasarnya.
Untuk melakukan stemming bahasa Indonesia kita dapat menggunakan library Python Sastrawi yang sudah kita siapkan di awal. Library Sastrawi menerapkan Algoritma Nazief dan Adriani dalam melakukan stemming bahasa Indonesia.

In [None]:
!pip install Sastrawi

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()
 
kalimat = "Lala sering sekali berbelanja online terutama pada saat pandemi. Menurut lala belanja online dan lebih praktis daripada belanja di pasar."
hasil = stemmer.stem(kalimat)
print(hasil)

lala sering sekali belanja online utama pada saat pandemi turut lala belanja online dan lebih praktis daripada belanja di pasar


# **Contoh Text Pre-Processing pada dataset**

In [None]:
import pandas as pd
df = pd.read_csv('ReviewHotel50.csv')
df.head()

Unnamed: 0,review,service
0,Saya kehilangan barang saya yang kelupaan di k...,0
1,Hotel ini terletak di daerah terpencil di jala...,0
2,Check innya lama banget kamar belum siap katan...,0
3,Ini kedua kalinya keluarga saya menginap di vi...,1
4,Saya pilih kamar yang ternyata kamar mandinya ...,1


In [None]:
import re
def  clean_text(df, text_field, new_text_field_name):
    df[new_text_field_name] = df[text_field].str.lower()
    df[new_text_field_name] = df[new_text_field_name].apply(lambda elem: re.sub(r"(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)|^rt|http.+?", "", elem))  
    # remove numbers
    df[new_text_field_name] = df[new_text_field_name].apply(lambda elem: re.sub(r"\d+", "", elem)) 
    return df

In [None]:
df['text_clean'] = df['review'].str.lower()
df['text_clean']
data_clean = clean_text(df, 'review', 'text_clean')
data_clean.head(10)


Unnamed: 0,review,service,text_clean
0,Saya kehilangan barang saya yang kelupaan di k...,0,saya kehilangan barang saya yang kelupaan di k...
1,Hotel ini terletak di daerah terpencil di jala...,0,hotel ini terletak di daerah terpencil di jala...
2,Check innya lama banget kamar belum siap katan...,0,check innya lama banget kamar belum siap katan...
3,Ini kedua kalinya keluarga saya menginap di vi...,1,ini kedua kalinya keluarga saya menginap di vi...
4,Saya pilih kamar yang ternyata kamar mandinya ...,1,saya pilih kamar yang ternyata kamar mandinya ...
5,Kamar tidak kedap suarasuara dari luar sangar ...,1,kamar tidak kedap suarasuara dari luar sangar ...
6,Sarapannya dimulai jam 17.11 terlalu siang unt...,1,sarapannya dimulai jam terlalu siang untuk wi...
7,Oke tapi untuk housekeepingnya tolong lebih ba...,0,oke tapi untuk housekeepingnya tolong lebih ba...
8,Makanan oke banget lengkap menunya. Hanya saja...,0,makanan oke banget lengkap menunya hanya saja ...
9,Jalur masuk menuju kamar mirip labirin panjang...,1,jalur masuk menuju kamar mirip labirin panjang...


In [None]:
#------STOPWORDS--------------------
import nltk.corpus
nltk.download('stopwords')
from nltk.corpus import stopwords
stop = stopwords.words('indonesian')
data_clean['text_StopWord'] = data_clean['text_clean'].apply(lambda x:' '.join([word for word in x.split() if word not in (stop)]))
data_clean.head()


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,review,service,text_clean,text_StopWord
0,Saya kehilangan barang saya yang kelupaan di k...,0,saya kehilangan barang saya yang kelupaan di k...,kehilangan barang kelupaan kulkas menghubungi ...
1,Hotel ini terletak di daerah terpencil di jala...,0,hotel ini terletak di daerah terpencil di jala...,hotel terletak daerah terpencil jalan sempit m...
2,Check innya lama banget kamar belum siap katan...,0,check innya lama banget kamar belum siap katan...,check innya banget kamar book jauhjauh kamar s...
3,Ini kedua kalinya keluarga saya menginap di vi...,1,ini kedua kalinya keluarga saya menginap di vi...,kalinya keluarga menginap viva hotel penginapa...
4,Saya pilih kamar yang ternyata kamar mandinya ...,1,saya pilih kamar yang ternyata kamar mandinya ...,pilih kamar kamar mandinya lantai kamar mandin...


In [None]:
#--------#TOKONIZE----------------
import nltk 
nltk.download('punkt')
from nltk.tokenize import sent_tokenize, word_tokenize
data_clean['text_tokens'] = data_clean['text_StopWord'].apply(lambda x: word_tokenize(x))
data_clean.head()


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Unnamed: 0,review,service,text_clean,text_StopWord,text_tokens
0,Saya kehilangan barang saya yang kelupaan di k...,0,saya kehilangan barang saya yang kelupaan di k...,kehilangan barang kelupaan kulkas menghubungi ...,"[kehilangan, barang, kelupaan, kulkas, menghub..."
1,Hotel ini terletak di daerah terpencil di jala...,0,hotel ini terletak di daerah terpencil di jala...,hotel terletak daerah terpencil jalan sempit m...,"[hotel, terletak, daerah, terpencil, jalan, se..."
2,Check innya lama banget kamar belum siap katan...,0,check innya lama banget kamar belum siap katan...,check innya banget kamar book jauhjauh kamar s...,"[check, innya, banget, kamar, book, jauhjauh, ..."
3,Ini kedua kalinya keluarga saya menginap di vi...,1,ini kedua kalinya keluarga saya menginap di vi...,kalinya keluarga menginap viva hotel penginapa...,"[kalinya, keluarga, menginap, viva, hotel, pen..."
4,Saya pilih kamar yang ternyata kamar mandinya ...,1,saya pilih kamar yang ternyata kamar mandinya ...,pilih kamar kamar mandinya lantai kamar mandin...,"[pilih, kamar, kamar, mandinya, lantai, kamar,..."


In [None]:
#-----------------STEMMING -----------------
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
#import swifter


# create stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# stemmed
def stemmed_wrapper(term):
    return stemmer.stem(term)

term_dict = {}
hitung=0

for document in data_clean['text_tokens']:
    for term in document:
        if term not in term_dict:
            term_dict[term] = ' '
            
print(len(term_dict))
print("------------------------")
for term in term_dict:
    term_dict[term] = stemmed_wrapper(term)
    hitung+=1
    print(hitung,":",term,":" ,term_dict[term])

print(term_dict)
print("------------------------")

# apply stemmed term to dataframe
def get_stemmed_term(document):
    return [term_dict[term] for term in document]


#script ini bisa dipisah dari eksekusinya setelah pembacaaan term selesai
data_clean['text_steamindo'] = data_clean['text_tokens'].apply(lambda x:' '.join(get_stemmed_term(x)))
data_clean.head(20)

420
------------------------
1 : kehilangan : hilang
2 : barang : barang
3 : kelupaan : lupa
4 : kulkas : kulkas
5 : menghubungi : hubung
6 : hotel : hotel
7 : respon : respon
8 : terletak : letak
9 : daerah : daerah
10 : terpencil : pencil
11 : jalan : jalan
12 : sempit : sempit
13 : membawa : bawa
14 : mobil : mobil
15 : menyewa : sewa
16 : sopir : sopir
17 : check : check
18 : innya : innya
19 : banget : banget
20 : kamar : kamar
21 : book : book
22 : jauhjauh : jauhjauh
23 : sarapan : sarap
24 : pagi : pagi
25 : jam : jam
26 : lauk : lauk
27 : tinggal : tinggal
28 : dikit : dikit
29 : kalinya : kali
30 : keluarga : keluarga
31 : menginap : inap
32 : viva : viva
33 : penginapan : inap
34 : kali : kali
35 : mengecewakan : kecewa
36 : ruang : ruang
37 : dbanding : dbanding
38 : pilih : pilih
39 : mandinya : mandi
40 : lantai : lantai
41 : gayung : gayung
42 : airnya : air
43 : sulit : sulit
44 : bab : bab
45 : buang : buang
46 : air : air
47 : menyiramnya : siram
48 : dikasih : kasih


Unnamed: 0,review,service,text_clean,text_StopWord,text_tokens,text_steamindo
0,Saya kehilangan barang saya yang kelupaan di k...,0,saya kehilangan barang saya yang kelupaan di k...,kehilangan barang kelupaan kulkas menghubungi ...,"[kehilangan, barang, kelupaan, kulkas, menghub...",hilang barang lupa kulkas hubung hotel respon
1,Hotel ini terletak di daerah terpencil di jala...,0,hotel ini terletak di daerah terpencil di jala...,hotel terletak daerah terpencil jalan sempit m...,"[hotel, terletak, daerah, terpencil, jalan, se...",hotel letak daerah pencil jalan sempit bawa mo...
2,Check innya lama banget kamar belum siap katan...,0,check innya lama banget kamar belum siap katan...,check innya banget kamar book jauhjauh kamar s...,"[check, innya, banget, kamar, book, jauhjauh, ...",check innya banget kamar book jauhjauh kamar s...
3,Ini kedua kalinya keluarga saya menginap di vi...,1,ini kedua kalinya keluarga saya menginap di vi...,kalinya keluarga menginap viva hotel penginapa...,"[kalinya, keluarga, menginap, viva, hotel, pen...",kali keluarga inap viva hotel inap kali kecewa...
4,Saya pilih kamar yang ternyata kamar mandinya ...,1,saya pilih kamar yang ternyata kamar mandinya ...,pilih kamar kamar mandinya lantai kamar mandin...,"[pilih, kamar, kamar, mandinya, lantai, kamar,...",pilih kamar kamar mandi lantai kamar mandi gay...
5,Kamar tidak kedap suarasuara dari luar sangar ...,1,kamar tidak kedap suarasuara dari luar sangar ...,kamar kedap suarasuara sangar kedengaran beris...,"[kamar, kedap, suarasuara, sangar, kedengaran,...",kamar kedap suarasuara sangar dengar berisikap...
6,Sarapannya dimulai jam 17.11 terlalu siang unt...,1,sarapannya dimulai jam terlalu siang untuk wi...,sarapannya jam siang wilayah jakarta aktivitas...,"[sarapannya, jam, siang, wilayah, jakarta, akt...",sarap jam siang wilayah jakarta aktivitas nasi...
7,Oke tapi untuk housekeepingnya tolong lebih ba...,0,oke tapi untuk housekeepingnya tolong lebih ba...,oke housekeepingnya tolong makeup room jam pag...,"[oke, housekeepingnya, tolong, makeup, room, j...",oke housekeepingnya tolong makeup room jam pag...
8,Makanan oke banget lengkap menunya. Hanya saja...,0,makanan oke banget lengkap menunya hanya saja ...,makanan oke banget lengkap menunya handuk kese...,"[makanan, oke, banget, lengkap, menunya, handu...",makan oke banget lengkap menu handuk keset lan...
9,Jalur masuk menuju kamar mirip labirin panjang...,1,jalur masuk menuju kamar mirip labirin panjang...,jalur masuk kamar labirin sempit makan pagi di...,"[jalur, masuk, kamar, labirin, sempit, makan, ...",jalur masuk kamar labirin sempit makan pagi su...


In [None]:
data_clean.to_csv('hasil_PreProcessing.csv', index= False)

Referensi :

https://www.dqlab.id/tahapan-text-preprocessing-dalam-teknik-pengolahan-data

https://ksnugroho.medium.com/dasar-text-preprocessing-dengan-python-a4fa52608ffe
