# Dasar Text-Preprocessing dengan Python#
Text data needs to be cleaned and encoded to numerical values before giving them to machine learning models, this process of cleaning and encoding is called as text preprocessing.

---

## Case Folding: Lowercase ##
Merubah format teks menjadi format huruf kecil semua (_lowercase_).

In [None]:
kalimat = "Berikut ini adalah 5 negara dengan pendidikan terbaik di dunia adalah Korea Selatan, Jepang, Singapura, Hong Kong, dan Finlandia."
lower_case = kalimat.lower()
print(lower_case)

## Case Folding: Removing Number ##
Menghapus karakter angka.

In [None]:
import re 

kalimat = "Berikut ini adalah 5 negara dengan pendidikan terbaik di dunia adalah Korea Selatan, Jepang, Singapura, Hong Kong, dan Finlandia."
hasil = re.sub(r"\d+", "", kalimat)
print(hasil)

## Case Folding: Removing Punctuation ##
Menghapus karakter tanda baca.

In [None]:
import string

kalimat = "Ini &adalah [contoh] kalimat? {dengan} tanda. baca?!!"
hasil = kalimat.translate(str.maketrans("","",string.punctuation))
print(hasil)

## Case Folding: Removing Whitespace ##
Menghapus karakter kosong.

In [None]:
kalimat = " \t ini kalimat contoh\t "
hasil = kalimat.strip()
print(hasil)

## Separating Sentences with Split () Method ##
Fungsi `split()` memisahkan _string_ ke dalam _list_ dengan spasi sebagai pemisah jika tidak ditentukan pemisahnya.

https://www.w3schools.com/python/ref_string_split.asp

In [None]:
kalimat = "rumah idaman adalah rumah yang bersih"
pisah = kalimat.split()
print(pisah)

## Tokenizing: Word Tokenizing Using NLTK Module ##
Menggunakan _library_ NLTK untuk memisahkan kata dalam sebuah kalimat. 


In [None]:
import nltk
from nltk.tokenize import word_tokenize 

kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online."

tokens = nltk.tokenize.word_tokenize(kalimat)
print(tokens)

## Tokenizing with Case Folding ##
Menggabungkan teknik _Case Foling_ dengan _Tokenizing_.

In [None]:
from nltk.tokenize import word_tokenize 
 
kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online."
kalimat = kalimat.translate(str.maketrans('','',string.punctuation)).lower()
 
tokens = nltk.tokenize.word_tokenize(kalimat)
print(tokens)

## Frequency Distribution ##
Menghitung frekuensi kemunculan setiap tokens(kata) dalam teks.

In [None]:
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist

kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."
kalimat = kalimat.translate(str.maketrans('','',string.punctuation)).lower()
 
tokens = nltk.tokenize.word_tokenize(kalimat)
kemunculan = nltk.FreqDist(tokens)
print(kemunculan.most_common())

## Frequency Distribution Visualization with Matplotlib ##
Untuk menggambarkan frekuensi kemunculan setiap tokens dapat menggunakan _library_ __matplotlib__ pada Python.

https://matplotlib.org

In [None]:
import matplotlib.pyplot as plt

kemunculan.plot(30,cumulative=False)
plt.show()

## Tokenizing: Sentences Tokenizing Using NLTK Module ##
Memisahkan kalimat dalam sebuah paragraf.

In [None]:
from nltk.tokenize import sent_tokenize

kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."
 
tokens = nltk.tokenize.sent_tokenize(kalimat)
print(tokens)

## Filtering using NLTK ##

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
 
kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."
kalimat = kalimat.translate(str.maketrans('','',string.punctuation)).lower()
 
tokens = word_tokenize(kalimat)
listStopword =  set(stopwords.words('indonesian'))
 
removed = []
for t in tokens:
    if t not in listStopword:
        removed.append(t)
 
print(removed)

## Filtering using Sastrawi: Stopword List ##
Melihat daftar _stopword_ pada Sastrawi.

In [None]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
 
factory = StopWordRemoverFactory()
stopwords = factory.get_stop_words()
print(stopwords)

## Filtering using Sastrawi ##

In [None]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from nltk.tokenize import word_tokenize 

factory = StopWordRemoverFactory()
stopword = factory.create_stop_word_remover()

kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."
kalimat = kalimat.translate(str.maketrans('','',string.punctuation)).lower()

stop = stopword.remove(kalimat)
tokens = nltk.tokenize.word_tokenize(stop)

print(tokens)

## Add Custom Stopword ##
Menambahkan kata di _stopword_ untuk dihilangkan pada sebuah teks.

In [None]:
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory, StopWordRemover, ArrayDictionary
from nltk.tokenize import word_tokenize 
    
# ambil stopword bawaan
stop_factory = StopWordRemoverFactory().get_stop_words()
more_stopword = ['daring', 'online']

kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."
kalimat = kalimat.translate(str.maketrans('','',string.punctuation)).lower()

# menggabungkan stopword
data = stop_factory + more_stopword
 
dictionary = ArrayDictionary(data)
str = StopWordRemover(dictionary)
tokens = nltk.tokenize.word_tokenize(str.remove(kalimat))
 
print(tokens)

## Stemming : Porter Stemming Algorithm using NLTK ##

https://tartarus.org/martin/PorterStemmer/index-old.html

In [None]:
from nltk.stem import PorterStemmer    
ps = PorterStemmer() 

kata = ["program", "programs", "programer", "programing", "programers"] 
  
for k in kata: 
    print(k, " : ", ps.stem(k))

## Stemming Bahasa Indonesia using Sastrawi ##

In [None]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()
 
kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."

hasil = stemmer.stem(kalimat)
print(hasil)

Referensi Artikel: 

https://medium.com/@ksnugroho/dasar-text-preprocessing-dengan-python-a4fa52608ffe