In [8]:
import os
import pandas as pd
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory  # Import StemmerFactory from Sastrawi

In [2]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\aulia\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\aulia\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [9]:
# Mengambil dataset dari folder 'dataset'
dataset_path = 'dataset/Aerostreet4_steming.csv'
df = pd.read_csv(dataset_path)
df.head()

Unnamed: 0,Ulasan
0,bagus
1,model keren harga murah barang gak murah moga ...
2,sesuai skripsi mantap
3,kualitas oke sekali
4,barang kirim sesuai dengan pesan


In [10]:
# Menghapus baris yang kososng pada kolom ulasan
df = df.dropna(subset=['Ulasan'])
# tampilkan informasi bahwa tidak ada baris yang kosong
print(df.isnull().sum())

Ulasan    0
dtype: int64


In [11]:
# Tambahkan stopwords tambahan dan kata-kata slang
additional_stopwords = ['yg','rp','ribu', 'nya', 'dg', 'dgn', 'tdk', 'tpi', 'jg', 'krn', 'sy', 'sdh', 'lah', 'deh', 'ngga']
stopwords_list = set(stopwords.words('indonesian') + additional_stopwords)

print(stopwords_list)

{'jumlah', 'diperbuatnya', 'wong', 'ada', 'disebutkan', 'betulkah', 'bung', 'mengungkapkan', 'dimulai', 'sebagainya', 'dan', 'bagaimana', 'sehingga', 'dipastikan', 'selama', 'baik', 'oleh', 'paling', 'ngga', 'jadi', 'lain', 'menantikan', 'tempat', 'sebaik', 'cukup', 'bagaimanapun', 'sebegini', 'sepertinya', 'khususnya', 'ditanyai', 'tertuju', 'bermaksud', 'dia', 'tak', 'tampak', 'dapat', 'dibuatnya', 'selalu', 'ditegaskan', 'ditambahkan', 'bersama-sama', 'diberikan', 'semula', 'berada', 'lagi', 'sebaiknya', 'sejak', 'mengucapkannya', 'serta', 'tandasnya', 'kurang', 'kebetulan', 'ujar', 'ataukah', 'bukankah', 'tambahnya', 'dulu', 'melainkan', 'inginkah', 'begitu', 'mendapatkan', 'lainnya', 'semisal', 'bisakah', 'bukan', 'kenapa', 'merupakan', 'pertama', 'wahai', 'agaknya', 'berapakah', 'semampunya', 'mana', 'tanya', 'berikutnya', 'saja', 'kelima', 'kepadanya', 'siapakah', 'masih', 'ketika', 'minta', 'sekecil', 'diketahui', 'jadilah', 'luar', 'dimulailah', 'tdk', 'sebutlah', 'kepada', 's

In [12]:
# Membuat fungsi untuk menghapus stopwords menghilangkan emoticon, angka, symbol, tanda baca, dan mengubah menjadi huruf kecil,tokenizer,gabungkan kembali
def clean_text(text):
    text = re.sub(r'@[A-Za-z0-9]+', '', text)  # Menghapus @mentions
    text = re.sub(r'#', '', text)  # Menghapus hashtag
    text = re.sub(r'RT[\s]+', '', text)  # Menghapus RT
    text = re.sub(r'https?:\/\/\S+', '', text)  # Menghapus hyperlink
    text = re.sub(r'[0-9]+', '', text)  # Menghapus angka
    text = re.sub(r'[^\w\s]', '', text)  # Menghapus symbol
    text = re.sub(r'[^\x00-\x7F]+', '', text)  # Menghapus emoticon
    text = re.sub(r'"', '', text)  # Menghapus tanda kutip
    # Menghapus kata dengan panjang 1-2 karakter
    text = re.sub(r'\b\w{1,2}\b', '', text)
    text = re.sub(r'\s+', ' ', text)  # Menghapus spasi ekstra
    text = text.strip()  # Menghapus spasi di awal dan akhir

    text = text.lower()  # Mengubah menjadi huruf kecil
    text = word_tokenize(text)  # Tokenisasi
    # Menghapus stopwords
    text = [word for word in text if word not in stopwords_list]
    text = ' '.join(text)  # Menggabungkan kembali

    return text


# Menerapkan fungsi clean_text pada kolom ulasan
df['Ulasan'] = df['Ulasan'].apply(clean_text)

# Menghapus baris yang kosong pada kolom 'Ulasan'
df = df[df['Ulasan'].str.strip() != '']

# Menampilkan tabel dengan lebar kolom penuh
pd.set_option('display.max_colwidth', None)
df.head(20)

Unnamed: 0,Ulasan
0,bagus
1,model keren harga murah barang gak murah moga awet barang
2,sesuai skripsi mantap
3,kualitas oke
4,barang kirim sesuai pesan
5,fast respons model keren kualitas bagus mantap
6,bagus
7,baguss brand lokal kualitas produk harga jangkau
8,model keren pas kaki
10,pas kerja jalan jalan gak licin


In [13]:
# hasil clean text jadikan csv
df.to_csv('dataset/Aerostreet4_clean.csv', index=False)

In [14]:
# Setelah cleaning, kita akan melakukan stemming
factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stem_text(text):
    return stemmer.stem(text)

df['Ulasan'] = df['Ulasan'].apply(stem_text)
df.head(20)

Unnamed: 0,Ulasan
0,bagus
1,model keren harga murah barang gak murah moga awet barang
2,sesuai skripsi mantap
3,kualitas oke
4,barang kirim sesuai pesan
5,fast respons model keren kualitas bagus mantap
6,bagus
7,baguss brand lokal kualitas produk harga jangkau
8,model keren pas kaki
10,pas kerja jalan jalan gak licin


In [15]:
# simpan ke csv hasil steming
df.to_csv('dataset/Aerostreet4_steming.csv', index=False)