## Preprocessing Menggunakan Spacy ##
- Mengenai NLTK

In [1]:
# token
import nltk
from nltk.tokenize import word_tokenize 

In [2]:
def word_tokenize_wrapper(text):
 return word_tokenize(text)

In [3]:
teks_nltk = word_tokenize_wrapper('Kebutuhan akan pendidikan yang berkualitas menjadi salah satu fokus utama dalam pembangunan masa depan.')

In [4]:
teks_nltk

['Kebutuhan',
 'akan',
 'pendidikan',
 'yang',
 'berkualitas',
 'menjadi',
 'salah',
 'satu',
 'fokus',
 'utama',
 'dalam',
 'pembangunan',
 'masa',
 'depan',
 '.']

- Memakai spacy

In [5]:
!pip install spacy



In [6]:
from spacy.lang.id import Indonesian
import spacy

nlp = Indonesian()  # use directly
nlp = spacy.blank('id')  # blank instance'
Teks = nlp('Kebutuhan akan pendidikan yang berkualitas menjadi salah satu fokus utama dalam pembangunan masa depan.')

In [7]:
Token_kata = [token.text for token in Teks]
Token_kata

['Kebutuhan',
 'akan',
 'pendidikan',
 'yang',
 'berkualitas',
 'menjadi',
 'salah',
 'satu',
 'fokus',
 'utama',
 'dalam',
 'pembangunan',
 'masa',
 'depan',
 '.']

- load library

In [8]:
import re
import string
import time
from copy import deepcopy

- load dataset

In [9]:
import pandas as pd

In [11]:
df = pd.read_csv('review_mpaspor.csv')

In [12]:
df.head()

Unnamed: 0,userName,score,at,content
0,Anggun Virly channel,1,2024-01-05 22:03:03,Kode billing tidak ada
1,Juni Arjuna,1,2024-01-05 16:47:02,"App nya saya mohon di perbaiki,saya udh log-in..."
2,Khamdan Ambari,1,2024-01-05 15:54:11,"Maksudnya apa ini qplikasi, kirain bisa memban..."
3,Antika Yosa Fitri,1,2024-01-05 15:14:19,"Bikin aplikasi, bukan memudahkan tetapi bikin ..."
4,PENDAKI PAM chanel,1,2024-01-05 11:15:01,aplikasi makan sagu Rakyat miskin


In [13]:
df = df.drop(['score','at'],axis=1)

In [14]:
df

Unnamed: 0,userName,content
0,Anggun Virly channel,Kode billing tidak ada
1,Juni Arjuna,"App nya saya mohon di perbaiki,saya udh log-in..."
2,Khamdan Ambari,"Maksudnya apa ini qplikasi, kirain bisa memban..."
3,Antika Yosa Fitri,"Bikin aplikasi, bukan memudahkan tetapi bikin ..."
4,PENDAKI PAM chanel,aplikasi makan sagu Rakyat miskin
...,...,...
12494,Sukirno Nur,Mantabbbb
12495,Ifan Sastra Hirata,Tidak ditemukan Kanim di lokasi anda
12496,Handriyanti,Lemot bgt pas milih lokasi pengambilan paspor ...
12497,Ibnu Prayudha Pangestu,Aplikasi ini sangat membantu bagi saya yang me...


In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12499 entries, 0 to 12498
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   userName  12499 non-null  object
 1   content   12499 non-null  object
dtypes: object(2)
memory usage: 195.4+ KB


- preprocessing dataset

In [17]:
#!pip install ekphrasis

In [18]:
from ekphrasis.classes.preprocessor import TextPreProcessor
from ekphrasis.classes.tokenizer import SocialTokenizer
from ekphrasis.dicts.emoticons import emoticons

text_processor = TextPreProcessor(
    # terms that will be normalized
    normalize=['email', 'percent', 'money', 'phone', 'user',
        'time', 'date', 'number'],
    # terms that will be annotated
    #annotate={"hashtag", "allcaps", "elongated", "repeated",'emphasis', 'censored'},
    annotate={"hashtag"},
    fix_html=True,  # fix HTML tokens
    
    # corpus from which the word statistics are going to be used 
    # for word segmentation 
    segmenter="twitter", 
    
    # corpus from which the word statistics are going to be used 
    # for spell correction
    corrector="twitter", 
    
    unpack_hashtags=True,  # perform word segmentation on hashtags
    unpack_contractions=True,  # Unpack contractions (can't -> can not)
    spell_correct_elong=False,  # spell correction for elongated words
    
    # select a tokenizer. You can use SocialTokenizer, or pass your own
    # the tokenizer, should take as input a string and return a list of tokens
    tokenizer=SocialTokenizer(lowercase=True).tokenize,

    # list of dictionaries, for replacing tokens extracted from the text,
    # with other expressions. You can pass more than one dictionaries.
    dicts=[emoticons]
)

  self.tok = re.compile(r"({})".format("|".join(pipeline)))


Reading twitter - 1grams ...
Reading twitter - 2grams ...
Reading twitter - 1grams ...


  regexes = {k.lower(): re.compile(self.expressions[k]) for k, v in


In [19]:
# panggil ekphrasis

def bersih_data(text):
    return " ".join(text_processor.pre_process_doc(text))

In [20]:
# fungsi dari AMS 01-03. silakan cek bagaimana saya merubah menjadi fungsi

def non_ascii(text):
    return text.encode('ascii', 'replace').decode('ascii')

def remove_space_alzami(text):
    return " ".join(text.split())

def remove_emoji_alzami(text):
    return ' '.join(re.sub("([x#][A-Za-z0-9]+)"," ", text).split())

def remove_tab(text):
    return text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")

def remove_tab2(text):
    return re.sub('\s+',' ',text)

def remove_rt(text):
    return text.replace('rt'," ")

def remove_mention(text):
    return ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())

def remove_incomplete_url(text):
    return text.replace("http://", " ").replace("https://", " ")

def remove_single_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

def remove_excessive_dot(text):
    return text.replace('..'," ")

def change_stripe(text):
    return text.replace('-'," ")

def lower(text):
    return text.lower()

def remove_single_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

def remove_excessive_dot(text):
    return text.replace('..'," ")

def lower(text):
    return text.lower()

def remove_whitespace_LT(text):
    return text.strip()

def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

def remove_punctuation(text):
    remove = string.punctuation
    remove = remove.replace("_", "") # don't remove hyphens
    pattern = r"[{}]".format(remove) # create the pattern
    return re.sub(pattern, "", text) 

In [21]:
# hapus untuk <>
def remove_number_eks(text):
    return text.replace('<number>'," ")

def remove_angka(text):
    return re.sub(r"\d+", "", text) 

def remove_URL_eks(text):
    return text.replace('URL'," ").replace('url'," ")

def space_punctuation(text):
    return re.sub('(?<! )(?=[.,!?()])|(?<=[.,!?()])(?! )', r' ', text)

- lakukan pembersihan dengan memanggil fungsi yang didefinisikan diatas

In [22]:
i = 0
final_string = []
s = ""
for text in df['content'].values:
    filteredSentence = []
    EachReviewText = ""
    proc = lower(text)
    proc = change_stripe(text)
    proc = remove_emoji_alzami(proc)
    proc = remove_tab(proc)
    proc = remove_tab2(proc)
    proc = non_ascii(proc)
    proc = remove_incomplete_url(proc)
    proc = remove_excessive_dot(proc)
    proc = remove_whitespace_LT(proc)
    proc = remove_whitespace_multiple(proc)
    proc = remove_single_char(proc)
    proc = space_punctuation(proc)
    proc = remove_punctuation(proc)
    proc = remove_space_alzami(proc)
    proc = bersih_data(proc)
    #proc = remove_rt(proc)
    proc = remove_number_eks(proc)
    proc = remove_angka(proc) 
    proc = remove_URL_eks(proc)
    EachReviewText = proc
    final_string.append(EachReviewText)

In [23]:
df["step01"] = final_string

In [24]:
df.head(10)

Unnamed: 0,userName,content,step01
0,Anggun Virly channel,Kode billing tidak ada,kode billing tidak ada
1,Juni Arjuna,"App nya saya mohon di perbaiki,saya udh log-in...",app nya saya mohon di perbaiki saya udh log in...
2,Khamdan Ambari,"Maksudnya apa ini qplikasi, kirain bisa memban...",maksudnya apa ini qplikasi kirain bisa membant...
3,Antika Yosa Fitri,"Bikin aplikasi, bukan memudahkan tetapi bikin ...",bikin aplikasi bukan memudahkan tetapi bikin t...
4,PENDAKI PAM chanel,aplikasi makan sagu Rakyat miskin,aplikasi makan sagu rakyat miskin
5,Nora Wiqayati,"Paspor nggak bisa dinyatakan rusak apa tidak, ...",paspor nggak bisa dinyatakan rusak apa tidak p...
6,Rendy Sihaloho,Ini gimana si di pilih tanggal gak mau gabisa ...,ini gimana si di pilih tanggal gak mau gabisa ...
7,tommy fondy,Good,good
8,abaz Gorden,"Aplikasi milik negara kok gini amat ya, susah ...",aplikasi milik negara kok gini amat ya susah b...
9,EDY MUSTOFA,Aplikasinya Tidak bisa dibuka,aplikasinya tidak bisa dibuka


- hapus data kosong

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12499 entries, 0 to 12498
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   userName  12499 non-null  object
 1   content   12499 non-null  object
 2   step01    12499 non-null  object
dtypes: object(3)
memory usage: 293.1+ KB


In [26]:
df_hapus = df[~df['step01'].str.contains(" ")]
df_hapus.info()

<class 'pandas.core.frame.DataFrame'>
Index: 808 entries, 7 to 12494
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   userName  808 non-null    object
 1   content   808 non-null    object
 2   step01    808 non-null    object
dtypes: object(3)
memory usage: 25.2+ KB


In [27]:
df_hapus.head(10)

Unnamed: 0,userName,content,step01
7,tommy fondy,Good,good
21,Ichsan Maulana,Mantanance?,mantanance
66,Sugiarto Rudi,Tooop,tooop
100,warkima03 warkima03,ok,ok
109,elvan dika,mantap,mantap
111,Edi Rudi,Good,good
116,Siti Hajar,Good,good
147,astika yunita,Aneh,aneh
149,uphie noer,Good,good
174,Number two,Buruk,buruk


In [28]:
df_new = df[~df.isin(df_hapus)].dropna()
df_new.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11691 entries, 0 to 12498
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   userName  11691 non-null  object
 1   content   11691 non-null  object
 2   step01    11691 non-null  object
dtypes: object(3)
memory usage: 365.3+ KB


In [29]:
df_new

Unnamed: 0,userName,content,step01
0,Anggun Virly channel,Kode billing tidak ada,kode billing tidak ada
1,Juni Arjuna,"App nya saya mohon di perbaiki,saya udh log-in...",app nya saya mohon di perbaiki saya udh log in...
2,Khamdan Ambari,"Maksudnya apa ini qplikasi, kirain bisa memban...",maksudnya apa ini qplikasi kirain bisa membant...
3,Antika Yosa Fitri,"Bikin aplikasi, bukan memudahkan tetapi bikin ...",bikin aplikasi bukan memudahkan tetapi bikin t...
4,PENDAKI PAM chanel,aplikasi makan sagu Rakyat miskin,aplikasi makan sagu rakyat miskin
...,...,...,...
12493,Muhamad Dikri,Keren Banget.. gampang banget prosesnya.. good...,keren banget gampang banget prosesnya good job
12495,Ifan Sastra Hirata,Tidak ditemukan Kanim di lokasi anda,tidak ditemukan kanim di lokasi anda
12496,Handriyanti,Lemot bgt pas milih lokasi pengambilan paspor ...,lemot bgt pas milih lokasi pengambilan paspor ...
12497,Ibnu Prayudha Pangestu,Aplikasi ini sangat membantu bagi saya yang me...,aplikasi ini sangat membantu bagi saya yang me...


- normalisasi kata slang menjadi kata baku

In [31]:
# token
import nltk
from nltk.tokenize import word_tokenize 

In [32]:
def word_tokenize_wrapper(text):
  return word_tokenize(text)

In [33]:
df_new['tokens'] = df['step01'].apply(word_tokenize_wrapper)

In [34]:
df_new.head(10)

Unnamed: 0,userName,content,step01,tokens
0,Anggun Virly channel,Kode billing tidak ada,kode billing tidak ada,"[kode, billing, tidak, ada]"
1,Juni Arjuna,"App nya saya mohon di perbaiki,saya udh log-in...",app nya saya mohon di perbaiki saya udh log in...,"[app, nya, saya, mohon, di, perbaiki, saya, ud..."
2,Khamdan Ambari,"Maksudnya apa ini qplikasi, kirain bisa memban...",maksudnya apa ini qplikasi kirain bisa membant...,"[maksudnya, apa, ini, qplikasi, kirain, bisa, ..."
3,Antika Yosa Fitri,"Bikin aplikasi, bukan memudahkan tetapi bikin ...",bikin aplikasi bukan memudahkan tetapi bikin t...,"[bikin, aplikasi, bukan, memudahkan, tetapi, b..."
4,PENDAKI PAM chanel,aplikasi makan sagu Rakyat miskin,aplikasi makan sagu rakyat miskin,"[aplikasi, makan, sagu, rakyat, miskin]"
5,Nora Wiqayati,"Paspor nggak bisa dinyatakan rusak apa tidak, ...",paspor nggak bisa dinyatakan rusak apa tidak p...,"[paspor, nggak, bisa, dinyatakan, rusak, apa, ..."
6,Rendy Sihaloho,Ini gimana si di pilih tanggal gak mau gabisa ...,ini gimana si di pilih tanggal gak mau gabisa ...,"[ini, gimana, si, di, pilih, tanggal, gak, mau..."
8,abaz Gorden,"Aplikasi milik negara kok gini amat ya, susah ...",aplikasi milik negara kok gini amat ya susah b...,"[aplikasi, milik, negara, kok, gini, amat, ya,..."
9,EDY MUSTOFA,Aplikasinya Tidak bisa dibuka,aplikasinya tidak bisa dibuka,"[aplikasinya, tidak, bisa, dibuka]"
10,Dian prahmana putra,"Aneh banget ya masa kuota penuh terus,jadi mau...",aneh banget ya masa kuota penuh terus jadi mau...,"[aneh, banget, ya, masa, kuota, penuh, terus, ..."


## simpan

In [35]:
df.to_csv('clean_dataset2.csv',sep=";")