In [1]:
import os
import pandas as pd
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory  # Import StemmerFactory from Sastrawi

In [2]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\aulia\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\aulia\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [4]:
# Mengambil dataset dari folder 'dataset'
dataset_path = 'dataset/Aerostreet3_clean.csv'
df = pd.read_csv(dataset_path)
df.head()

Unnamed: 0,Ulasan
0,manttaappp keren abis warnanya gundam banget w...
1,keren murah solid mantap
2,kecewa produk aerostreet
3,model bagus harga lbh murah kwalitas jempolan
4,belom coba desainnya keren sii moga aja awet yaaa


In [5]:
# Menghapus baris yang kososng pada kolom ulasan
df = df.dropna(subset=['Ulasan'])
# tampilkan informasi bahwa tidak ada baris yang kosong
print(df.isnull().sum())

Ulasan    0
dtype: int64


In [7]:
# Tambahkan stopwords tambahan dan kata-kata slang
additional_stopwords = ['yg','rp','ribu', 'nya', 'dg', 'dgn', 'tdk', 'tpi', 'jg', 'krn', 'sy', 'sdh', 'lah', 'deh', 'ngga']
stopwords_list = set(stopwords.words('indonesian') + additional_stopwords)

print(stopwords_list)

{'sambil', 'disebut', 'mendatangkan', 'masa', 'lainnya', 'tanpa', 'rp', 'sepihak', 'menunjuki', 'terdahulu', 'dipastikan', 'dialah', 'pada', 'diperlihatkan', 'sewaktu', 'terus', 'lain', 'jelaslah', 'awal', 'sebelumnya', 'lagi', 'datang', 'kamulah', 'kok', 'saja', 'tinggi', 'disebutkannya', 'maka', 'sangat', 'diantara', 'masalahnya', 'jika', 'demikian', 'hal', 'masalah', 'guna', 'terhadap', 'dikerjakan', 'cukup', 'siapakah', 'inikah', 'yaitu', 'bawah', 'tidaklah', 'mau', 'kelihatannya', 'cara', 'dini', 'ikut', 'dari', 'masih', 'terbanyak', 'akhirnya', 'hendaklah', 'memerlukan', 'turut', 'betul', 'jelaskan', 'kan', 'bahwasanya', 'tegas', 'sesekali', 'yakin', 'bagaimanakah', 'macam', 'menjadi', 'mirip', 'beginian', 'tidakkah', 'semisalnya', 'pernah', 'rasa', 'lamanya', 'mengatakannya', 'keterlaluan', 'oleh', 'berapapun', 'kitalah', 'sekurang-kurangnya', 'semata', 'mempunyai', 'kata', 'berujar', 'selamanya', 'harusnya', 'ingat', 'dituturkan', 'memisalkan', 'sebanyak', 'ditegaskan', 'dianta

In [8]:
# Membuat fungsi untuk menghapus stopwords menghilangkan emoticon, angka, symbol, tanda baca, dan mengubah menjadi huruf kecil,tokenizer,gabungkan kembali
def clean_text(text):
    text = re.sub(r'@[A-Za-z0-9]+', '', text)  # Menghapus @mentions
    text = re.sub(r'#', '', text)  # Menghapus hashtag
    text = re.sub(r'RT[\s]+', '', text)  # Menghapus RT
    text = re.sub(r'https?:\/\/\S+', '', text)  # Menghapus hyperlink
    text = re.sub(r'[0-9]+', '', text)  # Menghapus angka
    text = re.sub(r'[^\w\s]', '', text)  # Menghapus symbol
    text = re.sub(r'[^\x00-\x7F]+', '', text)  # Menghapus emoticon
    
    text = re.sub(r'\b\w{1,2}\b', '', text)  # Menghapus kata dengan panjang 1-2 karakter
    text = re.sub(r'\s+', ' ', text)  # Menghapus spasi ekstra
    text = text.strip()  # Menghapus spasi di awal dan akhir
    
    text = text.lower()  # Mengubah menjadi huruf kecil
    text = word_tokenize(text)  # Tokenisasi
    text = [word for word in text if word not in stopwords_list]  # Menghapus stopwords
    text = ' '.join(text)  # Menggabungkan kembali
    return text

# Menerapkan fungsi clean_text pada kolom ulasan dan tampilkan pada tabel full lebarnya
df['Ulasan'] = df['Ulasan'].apply(clean_text)
pd.set_option('display.max_colwidth', None)
df.head(20)


Unnamed: 0,Ulasan
0,manttaappp keren abis warnanya gundam banget wkkwk gokil sih saran aja packingnya sefty
1,keren murah solid mantap
2,kecewa produk aerostreet
3,model bagus harga lbh murah kwalitas jempolan
4,belom coba desainnya keren sii moga aja awet yaaa
5,kren
6,mantab
7,mantap sesuai pesanan admin fast respon
8,bagus semoga awet
9,pas ukurannyagada minus


In [9]:
# hasil clean text jadikan csv
df.to_csv('dataset/Aerostreet3_clean.csv', index=False)

In [10]:
# Setelah cleaning, kita akan melakukan stemming
factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stem_text(text):
    return stemmer.stem(text)

df['Ulasan'] = df['Ulasan'].apply(stem_text)
df.head(20)

Unnamed: 0,Ulasan
0,manttaappp keren abis warna gundam banget wkkwk gokil sih saran aja packingnya sefty
1,keren murah solid mantap
2,kecewa produk aerostreet
3,model bagus harga lbh murah kwalitas jempol
4,bom coba desain keren sii moga aja awet yaaa
5,kren
6,mantab
7,mantap sesuai pesan admin fast respon
8,bagus moga awet
9,pas ukurannyagada minus


In [11]:
# simpan ke csv hasil steming
df.to_csv('dataset/Aerostreet1_steming3.csv', index=False)