## Import Library & Dependencies

In [12]:
import pandas as pd
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

## Text Preprocessing

### Case Folding

In [16]:
def caseFolding(data):
    return data.applymap(lambda s: s.lower() if type(s) == str else s)
    # print(df2)

### Punctuation

In [17]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [18]:
def remove_punctuation(text):
    no_punct=[words for words in text if words not in string.punctuation]
    words_wo_punct=''.join(no_punct)
    return words_wo_punct

In [19]:
import re

### Tokenize

In [20]:

def tokenize(text):
    split=re.split("\W+",text) 
    return split

### Stopword

In [21]:
file= open("./NLP_bahasa_resources/combined_stop_words.txt").read().splitlines()
  
# reading the file
stopwords = file

In [22]:
def remove_stopwords(text):
    text=[word for word in text if word not in stopwords]
    return text

In [23]:
def get_stemm(text):
    #Record stemmer dalam variable
    factory = StemmerFactory()
    #buat sebuah data stemmer 
    stemmer = factory.create_stemmer()
    text=[stemmer.stem(word) for word in text]
    return text

## Data Processing

In [24]:
from simpledbf import Dbf5

In [25]:
dbf = Dbf5("./data/KBLI_DES.DBF")

In [26]:
kbli_des = dbf.to_dataframe()

In [27]:
kbli_des = kbli_des.rename(columns = {"B1R11A": "nama_usaha",
                           "B1R15A":"kategori_usaha",
                           "B1R15A_KOD":"kode_kategori",
                           "B1R15B":"output_usaha",
                           "B1R15B_KOD":"kode_kelompok"})

In [29]:
kbli_des = caseFolding(kbli_des)

In [30]:
feature=kbli_des[["kategori_usaha", "output_usaha","kode_kategori","kode_kelompok"]]

In [31]:
feature

Unnamed: 0,kategori_usaha,output_usaha,kode_kategori,kode_kelompok
0,jual beli sarana upacara,banten dari janur,c,16292
1,menjual makanan ringan,makanan ringan,g,47112
2,ukir sanggah dari kayu,ukiran kayu,c,16221
3,menjual makanan ringan,makanan ringan,g,47112
4,jual minuman kopi,minuman kopi,i,56306
...,...,...,...,...
394518,praktik doktor umum,jasa praktik doktor umum,q,86201
394519,menjahit pakaian yang diinginkan,jasa menjahit pakaian,c,14120
394520,menjual gas epiji,gas elpiji,g,47772
394521,menjual eceran sembako di warung,makanan dan minuman,g,47112


In [32]:
feature["text"] = feature["kategori_usaha"] + " " + feature["output_usaha"]

In [33]:
feature["punctuation"] = feature["text"].apply(lambda x : remove_punctuation(str(x)))

In [34]:
feature

Unnamed: 0,kategori_usaha,output_usaha,kode_kategori,kode_kelompok,text,punctuation
0,jual beli sarana upacara,banten dari janur,c,16292,jual beli sarana upacara banten dari janur,jual beli sarana upacara banten dari janur
1,menjual makanan ringan,makanan ringan,g,47112,menjual makanan ringan makanan ringan,menjual makanan ringan makanan ringan
2,ukir sanggah dari kayu,ukiran kayu,c,16221,ukir sanggah dari kayu ukiran kayu,ukir sanggah dari kayu ukiran kayu
3,menjual makanan ringan,makanan ringan,g,47112,menjual makanan ringan makanan ringan,menjual makanan ringan makanan ringan
4,jual minuman kopi,minuman kopi,i,56306,jual minuman kopi minuman kopi,jual minuman kopi minuman kopi
...,...,...,...,...,...,...
394518,praktik doktor umum,jasa praktik doktor umum,q,86201,praktik doktor umum jasa praktik doktor umum,praktik doktor umum jasa praktik doktor umum
394519,menjahit pakaian yang diinginkan,jasa menjahit pakaian,c,14120,menjahit pakaian yang diinginkan jasa menjahit...,menjahit pakaian yang diinginkan jasa menjahit...
394520,menjual gas epiji,gas elpiji,g,47772,menjual gas epiji gas elpiji,menjual gas epiji gas elpiji
394521,menjual eceran sembako di warung,makanan dan minuman,g,47112,menjual eceran sembako di warung makanan dan m...,menjual eceran sembako di warung makanan dan m...


In [35]:
feature['tokenization']=feature['punctuation'].apply(lambda x: tokenize(x))

In [36]:
feature

Unnamed: 0,kategori_usaha,output_usaha,kode_kategori,kode_kelompok,text,punctuation,tokenization
0,jual beli sarana upacara,banten dari janur,c,16292,jual beli sarana upacara banten dari janur,jual beli sarana upacara banten dari janur,"[jual, beli, sarana, upacara, banten, dari, ja..."
1,menjual makanan ringan,makanan ringan,g,47112,menjual makanan ringan makanan ringan,menjual makanan ringan makanan ringan,"[menjual, makanan, ringan, makanan, ringan]"
2,ukir sanggah dari kayu,ukiran kayu,c,16221,ukir sanggah dari kayu ukiran kayu,ukir sanggah dari kayu ukiran kayu,"[ukir, sanggah, dari, kayu, ukiran, kayu]"
3,menjual makanan ringan,makanan ringan,g,47112,menjual makanan ringan makanan ringan,menjual makanan ringan makanan ringan,"[menjual, makanan, ringan, makanan, ringan]"
4,jual minuman kopi,minuman kopi,i,56306,jual minuman kopi minuman kopi,jual minuman kopi minuman kopi,"[jual, minuman, kopi, minuman, kopi]"
...,...,...,...,...,...,...,...
394518,praktik doktor umum,jasa praktik doktor umum,q,86201,praktik doktor umum jasa praktik doktor umum,praktik doktor umum jasa praktik doktor umum,"[praktik, doktor, umum, jasa, praktik, doktor,..."
394519,menjahit pakaian yang diinginkan,jasa menjahit pakaian,c,14120,menjahit pakaian yang diinginkan jasa menjahit...,menjahit pakaian yang diinginkan jasa menjahit...,"[menjahit, pakaian, yang, diinginkan, jasa, me..."
394520,menjual gas epiji,gas elpiji,g,47772,menjual gas epiji gas elpiji,menjual gas epiji gas elpiji,"[menjual, gas, epiji, gas, elpiji]"
394521,menjual eceran sembako di warung,makanan dan minuman,g,47112,menjual eceran sembako di warung makanan dan m...,menjual eceran sembako di warung makanan dan m...,"[menjual, eceran, sembako, di, warung, makanan..."


In [37]:
feature['stopwords'] = feature['tokenization'].apply(lambda x : remove_stopwords(x))

In [38]:
feature

Unnamed: 0,kategori_usaha,output_usaha,kode_kategori,kode_kelompok,text,punctuation,tokenization,stopwords
0,jual beli sarana upacara,banten dari janur,c,16292,jual beli sarana upacara banten dari janur,jual beli sarana upacara banten dari janur,"[jual, beli, sarana, upacara, banten, dari, ja...","[jual, beli, sarana, upacara, banten, janur]"
1,menjual makanan ringan,makanan ringan,g,47112,menjual makanan ringan makanan ringan,menjual makanan ringan makanan ringan,"[menjual, makanan, ringan, makanan, ringan]","[menjual, makanan, ringan, makanan, ringan]"
2,ukir sanggah dari kayu,ukiran kayu,c,16221,ukir sanggah dari kayu ukiran kayu,ukir sanggah dari kayu ukiran kayu,"[ukir, sanggah, dari, kayu, ukiran, kayu]","[ukir, sanggah, kayu, ukiran, kayu]"
3,menjual makanan ringan,makanan ringan,g,47112,menjual makanan ringan makanan ringan,menjual makanan ringan makanan ringan,"[menjual, makanan, ringan, makanan, ringan]","[menjual, makanan, ringan, makanan, ringan]"
4,jual minuman kopi,minuman kopi,i,56306,jual minuman kopi minuman kopi,jual minuman kopi minuman kopi,"[jual, minuman, kopi, minuman, kopi]","[jual, minuman, kopi, minuman, kopi]"
...,...,...,...,...,...,...,...,...
394518,praktik doktor umum,jasa praktik doktor umum,q,86201,praktik doktor umum jasa praktik doktor umum,praktik doktor umum jasa praktik doktor umum,"[praktik, doktor, umum, jasa, praktik, doktor,...","[praktik, doktor, jasa, praktik, doktor]"
394519,menjahit pakaian yang diinginkan,jasa menjahit pakaian,c,14120,menjahit pakaian yang diinginkan jasa menjahit...,menjahit pakaian yang diinginkan jasa menjahit...,"[menjahit, pakaian, yang, diinginkan, jasa, me...","[menjahit, pakaian, jasa, menjahit, pakaian]"
394520,menjual gas epiji,gas elpiji,g,47772,menjual gas epiji gas elpiji,menjual gas epiji gas elpiji,"[menjual, gas, epiji, gas, elpiji]","[menjual, gas, epiji, gas, elpiji]"
394521,menjual eceran sembako di warung,makanan dan minuman,g,47112,menjual eceran sembako di warung makanan dan m...,menjual eceran sembako di warung makanan dan m...,"[menjual, eceran, sembako, di, warung, makanan...","[menjual, eceran, sembako, warung, makanan, mi..."


In [None]:
feature['stemming'] = feature['stopwords'].apply(lambda x : get_stemm(x))

In [None]:
feature

In [None]:
feature.to_excel("feature.xlsx", index = False)