## Import

In [15]:
import pandas as pd
import re

## Load Dataset

In [26]:
data = pd.read_excel('dataset.xlsx')

print(data)

   Dokumenke-i                                        Isi Dokumen
0            1  pembukaan daftar wisuda dan pelaksanaan nya le...
1            2  dalam setahun belakangan ini, pengaksesan KRS ...
2            3  Assalamualaikum Wr. Wb. yang menjadi salah sat...
3            4  pak/bu dosen saya mau minta keringanan biaya p...


## Preposessing

Casefolding

In [28]:
data['Isi Dokumen'] = data['Isi Dokumen'].str.lower()

# Menyimpan DataFrame ke dalam file Excel
data.to_excel('hasil_casefolding.xlsx', index=False)

print(data)

   Dokumenke-i                                        Isi Dokumen
0            1  pembukaan daftar wisuda dan pelaksanaan nya le...
1            2  dalam setahun belakangan ini, pengaksesan krs ...
2            3  assalamualaikum wr. wb. yang menjadi salah sat...
3            4  pak/bu dosen saya mau minta keringanan biaya p...


Filtering Tanda Baca

In [29]:
def remove_punctuation(text):
    return re.sub(r'[^\w\s]', '', text)

data['Isi Dokumen'] = data['Isi Dokumen'].apply(remove_punctuation)

# Menyimpan DataFrame ke dalam file Excel
data.to_excel('hasil_tandabaca.xlsx', index=False)

print(data)

   Dokumenke-i                                        Isi Dokumen
0            1  pembukaan daftar wisuda dan pelaksanaan nya le...
1            2  dalam setahun belakangan ini pengaksesan krs d...
2            3  assalamualaikum wr wb yang menjadi salah satu ...
3            4  pakbu dosen saya mau minta keringanan biaya pr...


Filtering Stoplist 

(https://www.kaggle.com/datasets/oswinrh/indonesian-stoplist?resource=download)

In [30]:
stopwords_file = 'stopwordbahasa.csv'

# Fungsi untuk membaca kamus stop words
def load_stopwords(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        stopwords = [line.strip() for line in f]
    return set(stopwords)

# Fungsi untuk menghapus stop words dari teks
def remove_stopwords(text, stopwords):
    tokens = text.split()
    filtered_tokens = [word for word in tokens if word.lower() not in stopwords]
    return ' '.join(filtered_tokens)


# Baca kamus stop words
stopwords = load_stopwords(stopwords_file)

# Proses penghapusan stop words
data['Isi Dokumen'] = data['Isi Dokumen'].apply(lambda x: remove_stopwords(str(x), stopwords))

# Menyimpan DataFrame ke dalam file Excel
data.to_excel('hasil_stoplist.xlsx', index=False)

print(data)


   Dokumenke-i                                        Isi Dokumen
0            1  pembukaan daftar wisuda pelaksanaan nya d umum...
1            2  setahun pengaksesan krs diganti siam sinergi s...
2            3  assalamualaikum wr wb salah syarat ujian kompr...
3            4  dosen keringanan biaya proposional spp keberat...


Stemming porter (bahasa Indonesia), 

In [31]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()

data['Isi Dokumen'] = data['Isi Dokumen'].apply(lambda x: ' '.join([stemmer.stem(word) for word in x.split()]))

# Menyimpan DataFrame ke dalam file Excel
data.to_excel('hasil_stemming.xlsx', index=False)

print(data)

   Dokumenke-i                                        Isi Dokumen
0            1  buka daftar wisuda laksana nya d umum web ub f...
1            2  tahun akses krs ganti siam sinergi sinergi fit...
2            3  assalamualaikum wr wb salah syarat uji kompre ...
3            4  dosen ringan biaya proposional spp berat biaya...


Tokenisasi

In [21]:
import nltk
from nltk.tokenize import word_tokenize

# Download punkt tokenizer jika belum diunduh
nltk.download('punkt')

# Melakukan tokenisasi pada kolom 'Isi Dokumen'
data['Tokenized'] = data['Isi Dokumen'].apply(lambda x: word_tokenize(x))

# Menampilkan DataFrame setelah tokenisasi
print(data)

   Dokumenke-i                                        Isi Dokumen  \
0            1  buka daftar wisuda laksana nya d umum web ub f...   
1            2  tahun akses krs ganti siam sinergi sinergi fit...   
2            3  assalamualaikum wr wb salah syarat uji kompre ...   
3            4  dosen ringan biaya proposional spp berat biaya...   

                                           Tokenized  
0  [buka, daftar, wisuda, laksana, nya, d, umum, ...  
1  [tahun, akses, krs, ganti, siam, sinergi, sine...  
2  [assalamualaikum, wr, wb, salah, syarat, uji, ...  
3  [dosen, ringan, biaya, proposional, spp, berat...  


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\TEMP\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [22]:
# Menyimpan hasil tokenisasi ke dalam DataFrame
data_to_save = data.copy()

# Simpan DataFrame ke dalam file Excel
nama_file_excel = 'hasil_preposessing.xlsx'
data_to_save.to_excel(nama_file_excel, index=False)

print("Hasil telah disimpan dalam file Excel:", nama_file_excel)

Hasil telah disimpan dalam file Excel: hasil_preposessing.xlsx
