In [None]:
import nltk
import time

import pandas as pd
import numpy as np

from nltk.probability import FreqDist
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer

In [None]:
# Init NLTK
# Pada tahap ini akan tampil NLTK downloader
# Jikal belum perdah download, harus download beberapa modul terlebih dahulu
# Jika sudah tahap ini dapat dilewati
nltk.download()

In [None]:
# Membaca dataset.csv kedalah dataframe pandas
df = pd.read_csv("./data/dataset.csv")

# print(df.head(5))
print(df.isna().any())

In [None]:
# Cleaning
# Karena data yang digunakan hanya kolom "review_text" 
# maka hanya data pada kolom itu yang akan dibersihkan dari nilai NaN.
# Pembersihan data ini akan menghapus baris yang memiliki nilai NaN
# pada kolom "review_text".
df.dropna(axis=0, subset=["review_text"], inplace=True)

print(df.isna().any())

In [None]:
# Case Folding
# Mengecilkan semuah huruf pada kolom "review_text"
df["review_text"] = df["review_text"].str.lower()

print(df["review_text"])

In [None]:
# Tokenizing
# Pembuatan token kata akan dilakukan setelah text masing-masing dokumen
# dilakukan penghilangan karakter-karakter yang tidak penting

In [None]:
import string
import re

def hapus_karakter_spesial(text):
    # hapus karakter yang bukan ASCII
    return text.encode('ascii', 'replace').decode('ascii')

def hapus_karakter_angka(text):
    return re.sub(r'\d+', "", text)

def hapus_tanda_baca(text):
    return text.translate(str.maketrans("", "", string.punctuation))

def hapus_whitespace(text):
    return re.sub(r'\s+', ' ', text)

def hapus_whitespace_kiri_kanan(text):
    return text.strip()

In [None]:
# Menghilangkan karakter tidak penting
df["review_text"] = df["review_text"].apply(hapus_karakter_spesial)
df["review_text"] = df["review_text"].apply(hapus_karakter_angka)
df["review_text"] = df["review_text"].apply(hapus_tanda_baca)
df["review_text"] = df["review_text"].apply(hapus_whitespace)
df["review_text"] = df["review_text"].apply(hapus_whitespace_kiri_kanan)

# Membuat token
df['review_text_tokens'] = df['review_text'].apply(lambda text: word_tokenize(text))

print(df["review_text"])

In [None]:
# Stopwords
# Pada tahap ini akan menghilangkan stopwords
# stopwords yang digunakan bersal dari library NLTK

# Mendapatkan list stopwords dari library NLTK
list_stopwords = stopwords.words('english')
list_stopwords = set(list_stopwords)

# Eliminasi kata yang termasuk stopwords
df['review_text_tokens_wsw'] = df['review_text_tokens'].apply(
    lambda words: [word for word in words if word not in list_stopwords]
)

print(df['review_text_tokens_wsw'].head())

In [None]:
# Stemming
# Tahap ini akan mengembalikan kata kebentuk dasarnya
# di sini akan menggunakan snowball stemmer

# Menghitung waktu stemming
start_time = time.time()

stemmer = SnowballStemmer(language="english")
df["review_text_tokens_stemmed"] = df["review_text_tokens_wsw"].apply(
    lambda words: [stemmer.stem(word) for word in words]
)

print("--- %s seconds ---" % (time.time() - start_time))
print(df["review_text_tokens_stemmed"])

In [None]:
# Menyimpan hasil prepocessing
df.to_csv("./data/text_preprocessing.csv")