# Dasar Text-Preprocessing dengan Python#
Text data needs to be cleaned and encoded to numerical values before giving them to machine learning models, this process of cleaning and encoding is called as text preprocessing.

---

## Case Folding: Lowercase ##
Merubah format teks menjadi format huruf kecil semua (_lowercase_).

In [1]:
kalimat = "Jerapah adalah hewan Mamalia darat tertinggi di dunia saat ini"
lower_case = kalimat.lower()
print(lower_case)

jerapah adalah hewan mamalia darat tertinggi di dunia saat ini


## Case Folding: Removing Number ##
Menghapus karakter angka.

In [4]:
import re 
kalimat = "Berikut ini adalah 5 negara dengan pendidikan terbaik di dunia adalah Korea Selatan, Jepang, Singapura, Hong Kong, dan Finlandia."

hasil = re.sub(r"\d+", "", kalimat)
hasil

'Berikut ini adalah  negara dengan pendidikan terbaik di dunia adalah Korea Selatan, Jepang, Singapura, Hong Kong, dan Finlandia.'

## Case Folding: Removing Punctuation ##
Menghapus karakter tanda baca.

In [5]:
import string

kalimat = "Ini &adalah [contoh] kalimat? {dengan} tanda. baca?!!"
hasil = kalimat.translate(str.maketrans("","",string.punctuation))
hasil

'Ini adalah contoh kalimat dengan tanda baca'

## Case Folding: Removing Whitespace ##
Menghapus karakter kosong.

In [6]:
kalimat = " \t    ini kalimat contoh \t   \n"
hasil = kalimat.strip()

hasil

'ini kalimat contoh'

## Separating Sentences with Split () Method ##
Fungsi `split()` memisahkan _string_ ke dalam _list_ dengan spasi sebagai pemisah jika tidak ditentukan pemisahnya.

https://www.w3schools.com/python/ref_string_split.asp

In [7]:
kalimat = "rumah idaman adalah rumah yang bersih"
pisah = kalimat.split()

pisah

['rumah', 'idaman', 'adalah', 'rumah', 'yang', 'bersih']

## Tokenizing: Word Tokenizing Using NLTK Module ##
Menggunakan _library_ NLTK untuk memisahkan kata dalam sebuah kalimat. 

In [9]:
import nltk
from nltk.tokenize import word_tokenize 

kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online."

tokens = nltk.tokenize.word_tokenize(kalimat)

In [10]:
tokens

['Andi',
 'kerap',
 'melakukan',
 'transaksi',
 'rutin',
 'secara',
 'daring',
 'atau',
 'online',
 '.']

## Tokenizing with Case Folding ##
Menggabungkan teknik _Case Foling_ dengan _Tokenizing_.

In [11]:
from nltk.tokenize import word_tokenize 
 
kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online."
kalimat = kalimat.translate(str.maketrans('','',string.punctuation)).lower()

tokens = nltk.tokenize.word_tokenize(kalimat)

tokens

['andi',
 'kerap',
 'melakukan',
 'transaksi',
 'rutin',
 'secara',
 'daring',
 'atau',
 'online']

## Frequency Distribution ##
Menghitung frekuensi kemunculan setiap tokens(kata) dalam teks.

In [12]:
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist

kalimat = "Andi kerap melakukan transaksi rutin secara daring atau online. Menurut Andi belanja online lebih praktis & murah."
kalimat = kalimat.translate(str.maketrans('','',string.punctuation)).lower()

tokens = nltk.tokenize.word_tokenize(kalimat)
kemunculan = nltk.FreqDist(tokens)

print(kemunculan.most_common())

[('andi', 2), ('online', 2), ('kerap', 1), ('melakukan', 1), ('transaksi', 1), ('rutin', 1), ('secara', 1), ('daring', 1), ('atau', 1), ('menurut', 1), ('belanja', 1), ('lebih', 1), ('praktis', 1), ('murah', 1)]


## Frequency Distribution Visualization with Matplotlib ##
Untuk menggambarkan frekuensi kemunculan setiap tokens dapat menggunakan _library_ __matplotlib__ pada Python.

https://matplotlib.org

In [2]:
import matplotlib.pyplot as plt

kemunculan.plot(30, cumulative=False)

plt.show()

ModuleNotFoundError: No module named 'matplotlib'