In [1]:
import os
import pandas as pd
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory  # Import StemmerFactory from Sastrawi

In [2]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\aulia\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\aulia\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [4]:
# Mengambil dataset dari folder 'dataset'
dataset_path = 'dataset/Aerostreet5.csv'
df = pd.read_csv(dataset_path)
df.head()

Unnamed: 0,Ulasan
0,nyesel harus nya naik 1 size dari standar.
1,Udah langganan kemarin beli yang Riku ternyata...
2,Nice!
3,barang sudah diterima sesuai pesanan..\r\nmode...
4,"Barang sesuai deskripsi, ukurannya pas mantab."


In [5]:
# Menghapus baris yang kososng pada kolom ulasan
df = df.dropna(subset=['Ulasan'])
# tampilkan informasi bahwa tidak ada baris yang kosong
print(df.isnull().sum())

Ulasan    0
dtype: int64


In [6]:
# Tambahkan stopwords tambahan dan kata-kata slang
additional_stopwords = ['yg','rp','ribu', 'nya', 'dg', 'dgn', 'tdk', 'tpi', 'jg', 'krn', 'sy', 'sdh', 'lah', 'deh', 'ngga']
stopwords_list = set(stopwords.words('indonesian') + additional_stopwords)

print(stopwords_list)

{'hari', 'mengatakannya', 'karenanya', 'demi', 'ibaratkan', 'bukan', 'menunjukkan', 'itukah', 'menyatakan', 'andalah', 'sepertinya', 'melainkan', 'tidak', 'apalagi', 'yakni', 'sejak', 'kelima', 'diberi', 'ingat-ingat', 'pertama-tama', 'ditujukan', 'ibaratnya', 'jika', 'pantas', 'semasih', 'seringnya', 'dimulainya', 'sudahlah', 'diperlukannya', 'sebaliknya', 'lebih', 'diibaratkan', 'sejauh', 'justru', 'begitukah', 'dibuatnya', 'sebagaimana', 'suatu', 'terdiri', 'manalagi', 'mengakhiri', 'sela', 'sebaiknya', 'ditanyakan', 'menuju', 'sebagai', 'katakanlah', 'bahwa', 'semula', 'berkehendak', 'sejenak', 'memerlukan', 'malah', 'yang', 'tanya', 'ditandaskan', 'artinya', 'makanya', 'dong', 'tanpa', 'bermaksud', 'mengetahui', 'kitalah', 'adapun', 'digunakan', 'sdh', 'jauh', 'mengatakan', 'disini', 'diinginkan', 'biasa', 'sebabnya', 'meski', 'ditunjukkannya', 'dikatakannya', 'sebelum', 'pun', 'mengenai', 'dikerjakan', 'terus', 'bagaimanapun', 'nanti', 'akhirnya', 'supaya', 'daripada', 'bertanya'

In [7]:
# Membuat fungsi untuk menghapus stopwords menghilangkan emoticon, angka, symbol, tanda baca, dan mengubah menjadi huruf kecil,tokenizer,gabungkan kembali
def clean_text(text):
    text = re.sub(r'@[A-Za-z0-9]+', '', text)  # Menghapus @mentions
    text = re.sub(r'#', '', text)  # Menghapus hashtag
    text = re.sub(r'RT[\s]+', '', text)  # Menghapus RT
    text = re.sub(r'https?:\/\/\S+', '', text)  # Menghapus hyperlink
    text = re.sub(r'[0-9]+', '', text)  # Menghapus angka
    text = re.sub(r'[^\w\s]', '', text)  # Menghapus symbol
    text = re.sub(r'[^\x00-\x7F]+', '', text)  # Menghapus emoticon
    text = re.sub(r'"', '', text)  # Menghapus tanda kutip
    # Menghapus kata dengan panjang 1-2 karakter
    text = re.sub(r'\b\w{1,2}\b', '', text)
    text = re.sub(r'\s+', ' ', text)  # Menghapus spasi ekstra
    text = text.strip()  # Menghapus spasi di awal dan akhir
    text = text.lower()  # Mengubah menjadi huruf kecil
    
    
    text = word_tokenize(text)  # Tokenisasi
    # Menghapus stopwords
    text = [word for word in text if word not in stopwords_list]
    text = ' '.join(text)  # Menggabungkan kembali

    return text


# Menerapkan fungsi clean_text pada kolom ulasan
df['Ulasan'] = df['Ulasan'].apply(clean_text)

# Menghapus baris yang kosong pada kolom 'Ulasan'
df = df[df['Ulasan'].str.strip() != '']

# Menampilkan tabel dengan lebar kolom penuh
pd.set_option('display.max_colwidth', None)
df.head(20)

Unnamed: 0,Ulasan
0,nyesel size standar
1,udah langganan kemarin beli riku gak cocok jogging jalan pilih osaka aja udah aman noda dikit gak ngaruh dipakai kotorpengemasan pengiriman cepat terimakasih aerostreet
2,nice
3,barang diterima sesuai pesanan model keren kualitas bagus pas nyaman dipake seller responsif pengiriman cepat kurir ramah recommended tks aerostreet tks toped
4,barang sesuai deskripsi ukurannya pas mantab
5,thanks
6,good
7,keren pengiriman cepat kalo udah kota terpenting murah harganya bahannya murahan hehe mantap
8,beli warna putih nodanya
9,lumayan bagus sesuai tertera gambar


In [8]:
# hasil clean text jadikan csv
df.to_csv('dataset/Aerostreet5_clean.csv', index=False)

In [9]:
# Setelah cleaning, kita akan melakukan stemming
factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stem_text(text):
    return stemmer.stem(text)

df['Ulasan'] = df['Ulasan'].apply(stem_text)
df.head(20)

Unnamed: 0,Ulasan
0,nyesel size standar
1,udah langgan kemarin beli riku gak cocok jogging jalan pilih osaka aja udah aman noda dikit gak ngaruh pakai kotorpengemasan kirim cepat terimakasih aerostreet
2,nice
3,barang terima sesuai pesan model keren kualitas bagus pas nyaman dipake seller responsif kirim cepat kurir ramah recommended tks aerostreet tks toped
4,barang sesuai deskripsi ukur pas mantab
5,thanks
6,good
7,keren kirim cepat kalo udah kota penting murah harga bahan murah hehe mantap
8,beli warna putih noda
9,lumayan bagus sesuai tera gambar


In [10]:
# simpan ke csv hasil steming
df.to_csv('dataset/Aerostreet5_steming.csv', index=False)