In [11]:
import pandas as pd 
import numpy as np

abstrack = pd.read_csv("data_abstrak.csv")

abstrack['abstrack'] = abstrack['abstrack'].str.lower()
print(abstrack)

                                             abstrack
0   bagus prasetyo hutomo, 2016. pembuatan sistem ...
1   today customers can easily submit their review...
2   the purpose of this research is to present sym...
3   5\tabstrak\r\n\r\nsetiap tahunnya smpit nur hi...
4   berbagai pendidikan melalui pembelajaran yang ...
..                                                ...
78  novita rahmawati. evaluasi penerapan technolog...
79  abstrak\r\nrezza fariszal hisyam chaizara. k35...
80  this study aims to improve the activeness and ...
81  perkembangan era digitalisasi yang sangat pesa...
82  perkembangan era digitalisasi yang sangat pesa...

[83 rows x 1 columns]


In [19]:
import string 
import re #regex library

# import word_tokenize & FreqDist from NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist
nltk.download('punkt')


# ------ Tokenizing ---------

def remove_abstrack_special(text):
    # remove tab, new line, ans back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
    # remove non ASCII (emoticon, chinese word, .etc)
    text = text.encode('ascii', 'replace').decode('ascii')
    # remove mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    # remove incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
                
abstrack['abstrack'] = abstrack['abstrack'].apply(remove_abstrack_special)

#remove number
def remove_number(text):
    return  re.sub(r"\d+", "", text)

abstrack['abstrack'] = abstrack['abstrack'].apply(remove_number)

#remove punctuation
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

abstrack['abstrack'] = abstrack['abstrack'].apply(remove_punctuation)

#remove whitespace leading & trailing
def remove_whitespace_LT(text):
    return text.strip()

abstrack['abstrack'] = abstrack['abstrack'].apply(remove_whitespace_LT)

#remove multiple whitespace into single whitespace
def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

abstrack['abstrack'] = abstrack['abstrack'].apply(remove_whitespace_multiple)

# remove single char
def remove_singl_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

abstrack['abstrack'] = abstrack['abstrack'].apply(remove_singl_char)

# NLTK word rokenize 
def word_tokenize_wrapper(text):
    return word_tokenize(text)

abstrack['abstrack_tokens'] = abstrack['abstrack'].apply(word_tokenize_wrapper)

print('Tokenizing Result : \n') 
print(abstrack['abstrack_tokens'].head())
print('\n\n\n')

Tokenizing Result : 

0    [bagus, prasetyo, hutomo, pembuatan, sistem, a...
1    [today, customers, can, easily, submit, their,...
2    [the, purpose, of, this, research, is, to, pre...
3    [abstrak, setiap, tahunnya, smpit, nur, hidaya...
4    [berbagai, pendidikan, melalui, pembelajaran, ...
Name: abstrack_tokens, dtype: object






[nltk_data] Downloading package punkt to C:\Users\Alpen
[nltk_data]     Prastoyo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [21]:
# NLTK calc frequency distribution
def freqDist_wrapper(text):
    return FreqDist(text)

abstrack['abstrack_tokens_fdist'] = abstrack['abstrack_tokens'].apply(freqDist_wrapper)

print('Frequency Tokens : \n') 
print(abstrack['abstrack_tokens_fdist'].head().apply(lambda x : x.most_common()))

Frequency Tokens : 

0    [(yang, 17), (sistem, 14), (data, 9), (pasien,...
1    [(the, 26), (is, 12), (of, 9), (class, 9), (an...
2    [(the, 9), (face, 7), (to, 6), (of, 5), (ssvdr...
3    [(yang, 12), (dengan, 11), (dan, 10), (data, 9...
4    [(pembelajaran, 7), (yang, 5), (sistem, 5), (p...
Name: abstrack_tokens_fdist, dtype: object


In [25]:
from nltk.corpus import stopwords
nltk.download('stopwords')
# ----------------------- get stopword from NLTK stopword -------------------------------
# get stopword indonesia
list_stopwords = stopwords.words('indonesian')


# ---------------------------- manualy add stopword  ------------------------------------
# append additional stopword
list_stopwords.extend(["yg", "dg", "rt", "dgn", "ny", "d", 'klo', 
                       'kalo', 'amp', 'biar', 'bikin', 'bilang', 
                       'gak', 'ga', 'krn', 'nya', 'nih', 'sih', 
                       'si', 'tau', 'tdk', 'tuh', 'utk', 'ya', 
                       'jd', 'jgn', 'sdh', 'aja', 'n', 't', 
                       'nyg', 'hehe', 'pen', 'u', 'nan', 'loh', 'rt',
                       '&amp', 'yah'])

# ----------------------- add stopword from txt file ------------------------------------
# read txt stopword using pandas
txt_stopword = pd.read_csv("stopwords.txt", names= ["stopwords"], header = None)

# convert stopword string to list & append additional stopword
list_stopwords.extend(txt_stopword["stopwords"][0].split(' '))

# ---------------------------------------------------------------------------------------

# convert list to dictionary
list_stopwords = set(list_stopwords)


#remove stopword pada list token
def stopwords_removal(words):
    return [word for word in words if word not in list_stopwords]

abstrack['abstrack_tokens_WSW'] = abstrack['abstrack_tokens'].apply(stopwords_removal) 


print(abstrack['abstrack_tokens_WSW'].head())

0    [bagus, prasetyo, hutomo, pembuatan, sistem, a...
1    [today, customers, can, easily, submit, their,...
2    [the, purpose, of, this, research, is, to, pre...
3    [abstrak, tahunnya, smpit, nur, hidayah, mener...
4    [pendidikan, pembelajaran, berbasiskan, teknol...
Name: abstrack_tokens_WSW, dtype: object


[nltk_data] Downloading package stopwords to C:\Users\Alpen
[nltk_data]     Prastoyo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [32]:
# import Sastrawi package
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import swifter


# create stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# stemmed
def stemmed_wrapper(term):
    return stemmer.stem(term)

term_dict = {}

for document in abstrack['abstrack_tokens_WSW']:
    for term in document:
        if term not in term_dict:
            term_dict[term] = ' '
            
print(len(term_dict))
print("------------------------")

for term in term_dict:
    term_dict[term] = stemmed_wrapper(term)
    print(term,":" ,term_dict[term])
    
print(term_dict)
print("------------------------")


# apply stemmed term to dataframe
def get_stemmed_term(document):
    return [term_dict[term] for term in document]

abstrack['abstrack_tokens_stemmed'] = abstrack['abstrack_tokens_WSW'].swifter.apply(get_stemmed_term)
print(abstrack['abstrack_tokens_stemmed'])

2471
------------------------
bagus : bagus
prasetyo : prasetyo
hutomo : hutomo
pembuatan : buat
sistem : sistem
administrasi : administrasi
rawat : rawat
jalan : jalan
berbasis : bas
php : php
rumah : rumah
sakit : sakit
kepentingan : penting
pengolahan : olah
data : data
pendaftaran : daftar
pasien : pasien
tindakan : tindak
pembayaran : bayar
menangani : tangan
berjalan : jalan
cepat : cepat
kelola : kelola
valid : valid
pku : pku
muhammadiyah : muhammadiyah
surakarta : surakarta
memiliki : milik
kompleks : kompleks
pengelolaan : kelola
efektif : efektif
fungsi : fungsi
kartu : kartu
berguna : guna
pengenal : kenal
observasi : observasi
memperoleh : oleh
proses : proses
nyata : nyata
membentuk : bentuk
informasi : informasi
atribut : atribut
penyimpanan : simpan
database : database
dikumpulkan : kumpul
olah : olah
komponen : komponen
perancangan : ancang
dimana : mana
erd : erd
usecase : usecase
class : class
diagram : diagram
sequence : sequence
tampilan : tampil
hasil : hasil
dipe

contoller : contoller
algorithms : algorithms
kebutuhan : butuh
pokok : pokok
komoditas : komoditas
memegang : pegang
peranan : peran
aspek : aspek
ekonomi : ekonomi
sosial : sosial
politik : politik
negara : negara
indonesia : indonesia
berpengaruh : pengaruh
hajat : hajat
hidup : hidup
pemenuhan : penuh
faktor : faktor
pendukung : dukung
kesejahteraan : sejahtera
masyarakat : masyarakat
permasalahan : masalah
klasik : klasik
rangka : rangka
fluktuasi : fluktuasi
harga : harga
kenaikan : naik
pemicu : picu
utama : utama
inflasi : inflasi
mengatasi : atas
upaya : upaya
pemerintah : perintah
kebijakan : bijak
stabilisasi : stabilisasi
petani : tani
produsen : produsen
menguntungkan : untung
konsumen : konsumen
membeli : beli
terjangkau : jangkau
mengakomodasi : akomodasi
langkah : langkah
peramalan : amal
memprediksi : prediksi
prediksi : prediksi
nasional : nasional
fuzzy : fuzzy
series : series
pendekatan : dekat
song : song
chissom : chissom
markov : markov
chain : chain
periode : pe

disimpulkan : simpul
measure : measure
online : online
reviews : reviews
ditemui : temu
pembelian : beli
sayangnya : sayang
produk : produk
teks : teks
seksama : seksama
bintang : bintang
benarbenar : benarbenar
menggambarkan : gambar
opini : opini
amazon : amazon
movies : movies
tv : tv
logistic : logistic
perbedaan : beda
signifikan : signifikan
disiratkan : sirat
user : user
ditulisnya : tulis
dipilihnya : pilih
beda : beda
pvalue : pvalue
smote : smote
unproportional : unproportional
proportional : proportional
diajukan : aju
imbalanced : imbalanced
peningkatan : tingkat
kelas : kelas
minoritas : minoritas
makanan : makan
pendamping : damping
susu : susu
mpasi : mpasi
bayi : bayi
nutrisi : nutrisi
terpenuhi : penuh
asi : asi
bertahap : tahap
disesuaikan : sesuai
kondisi : kondisi
alergi : alergi
diderita : derita
malnutrisi : malnutrisi
mengintegrasikan : integrasi
menganalisis : analis
kelemahan : lemah
masingmasing : masingmasing
penunjang : tunjang
menu : menu
mempelajari : ajar

gramschmidt : gramschmidt
orthogonalization : orthogonalization
grayscale : grayscale
berkontras : kontras
pelembutan : lembut
circularity : circularity
pembersihan : bersih
noise : noise
pasca : pasca
vektor : vektor
immunositokimia : immunositokimia
sbpc : sbpc
keamanan : aman
menjaga : jaga
mengganggu : ganggu
merusak : rusak
koneksi : koneksi
terhubung : hubung
merugikanuntuk : merugikanuntuk
mencegah : cegah
kerugianseperti : kerugianseperti
kehilangan : hilang
datasalah : datasalah
honeypot : honeypot
intrusion : intrusion
detection : detection
ids : ids
komputer : komputer
sengaja : sengaja
umpan : umpan
penyerang : serang
attacker : attacker
sehinggapenyerang : sehinggapenyerang
terjebak : jebak
kippointrusion : kippointrusion
dipadukan : padu
perpaduan : padu
room : room
palsu : palsu
buatan : buat
kippo : kippo
terbaca : baca
penyerangan : serang
scanning : scanning
brute : brute
force : force
terperangkap : perangkap
roompalsu : roompalsu
terlacak : lacak
bruteforce : brutef

menyulitkan : sulit
prosesnya : proses
mengganti : ganti
pengerjaannya : kerja
mencoba : coba
pengenai : kena
terlengkapi : lengkap
diisi : isi
metodologi : metodologi
datadata : datadata
berkaitan : kait
merancang : rancang
permodelan : model
terstruktur : struktur
konteks : konteks
flow : flow
dfd : dfd
entity : entity
relationship : relationship
cdmconceptual : cdmconceptual
pdm : pdm
pysical : pysical
phpmysql : phpmysql
meningkat : tingkat
penginputan : penginputan
kerincian : kerincian
instansi : instansi
efisien : efisien
pihakphak : pihakphak
capacitated : capacitated
cvrp : cvrp
penentuan : tentu
mengirimkan : kirim
pelanggan : langgan
particle : particle
swarm : swarm
pso : pso
meminimalkan : minimal
biaya : biaya
perusahaan : usaha
mineral : mineral
pt : pt
guwatirta : guwatirta
sejahtera : sejahtera
inisialisasi : inisial
kawanan : kawan
partikel : partikel
posisi : posisi
kecepatan : cepat
bernilai : nila
pbest : pbest
gbest : gbest
usulan : usul
pengecekan : kece
mengisi 

describe : describe
objectives : objectives
artifact : artifact
evaluate : evaluate
communicate : communicate
rpl : rpl
mengacu : acu
arti : arti
penentu : tentu
project : project
pertimbanganb : pertimbanganb
dorongan : dorong
tercapai : capai
kekeliruan : keliru
perguruan : guru
dampak : dampak
buruk : buruk
psikologis : psikologis
akademis : akademis
relasional : rasional
kebanyakan : banyak
arah : arah
penggabungan : gabung
normalisasi : normalisasi
skenario : skenario
kesesuaiannya : sesuai
setuju : tuju
devi : devi
zetira : zetira
fauziah : fauziah
ditinau : tau
xi : xi
sakti : sakti
gemolong : golong
november : november
ekperimen : ekperimen
haji : haji
umrah : umrah
baitullah : baitullah
rubaiyat : rubaiyat
stadart : stadart
iso : iso
functional : functional
suitability : suitability
portability : portability
black : black
box : box
instrument : instrument
gt : gt
arnold : arnold
mlund : mlund
dipasang : pasang
responden : responden
aktor : aktor
mengoprasikan : mengoprasikan
a

HBox(children=(HTML(value='Pandas Apply'), FloatProgress(value=0.0, max=83.0), HTML(value='')))


0     [bagus, prasetyo, hutomo, buat, sistem, admini...
1     [today, customers, can, easily, submit, their,...
2     [the, purpose, of, this, research, is, to, pre...
3     [abstrak, tahun, smpit, nur, hidayah, terima, ...
4     [didik, ajar, basis, teknologi, informasi, ter...
                            ...                        
78    [novita, rahmawati, evaluasi, terap, technolog...
79    [abstrak, rezza, fariszal, hisyam, chaizara, e...
80    [this, study, aims, to, improve, the, activene...
81    [kembang, era, digitalisasi, pesat, dampak, ka...
82    [kembang, era, digitalisasi, pesat, dampak, ka...
Name: abstrack_tokens_stemmed, Length: 83, dtype: object


In [33]:
abstrack.to_csv("Text_Preprocessing.csv")
abstrack.to_excel("Text_Preprocessing.xlsx")