In [1]:
import pandas as pd
import numpy as np
import re
import nltk
nltk.download('punkt')

from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package punkt to
[nltk_data]     /home/basilmusyaffa19/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
def cleaning_text(text):
    text = str(text).lower() # Mengubah menjadi huruf kecil
    text = re.sub('<.*?>', ' ', text) # Menghapus tag HTML
    text = re.sub(r'http\S+|www.\S+', '', text) # Menghapus URL
    text = re.sub(r'@\w+|#\w+', '', text) # Menghapus mention dan hastag
    text = text.encode('ascii', 'ignore').decode('ascii') # Menghapus karakter non-ASCII
    text = re.sub(r'\b\w*\d\w*\b', '', text) # Menghapus kata yang mengandung angka
    text = re.sub(r'[^a-zA-Z\s]', ' ', text) # Menghapus karakter non-alfabet
    text = re.sub(r'\s+', ' ', text).strip() # Menghapus whitespace
    return text

def remove_stopword(text):
    stopword_factory = StopWordRemoverFactory()
    stopword = stopword_factory.get_stop_words()
    additional_stopword = 'nama1'
    stopword.append(additional_stopword)
    
    words = text.split()
    filtered_words = (word for word in words if word.lower() not in stopword)
    filtered_text = ' '.join(filtered_words)
    return filtered_text

def stem_tokens(text):
    stemmer_factory = StemmerFactory()
    stemmer = stemmer_factory.create_stemmer()
    words = text.split()
    stemmed_tokens = (stemmer.stem(token) for token in words)
    return ' '.join(stemmed_tokens)

def remove_single_letter_words(text):
    words = text.split()
    words = [word for word in words if len(word) > 1] # Mempertahankan kata yang hurufnya lebih dari satu
    cleaned_text = ' '.join(words)
    return cleaned_text

In [3]:
df = pd.read_excel('/home/basilmusyaffa19/Skripsi Basil/Dataset/dataset_sms_spam_v1_spellCorrectionFinal_20240910.xlsx')
df

Unnamed: 0,Teks,label
0,[PROMO] Beli paket Flash mulai dari 1GB di APL...,2
1,"2,5 GB/30 hari hanya Rp 35 ribu Spesial buat k...",2
2,"08-07-2016 11:47:11.Plg Yang terhormat, sisa k...",2
3,"07-08-2016 11:29:47.Mohon Yang Terhormat, sisa...",2
4,4.5GB/30 hari hanya Rp 55 ribu khusus buat kam...,2
...,...,...
1138,"Yooo, sama-sama ya, nanti aku umumkan ke kelom...",0
1139,😁 Saya belum pernah menulis tentang cadar sebe...,0
1140,"Bu, saya mau kirim 300",0
1141,Nama1 berangkat pagi...mau tunai atau transfer?,0


In [4]:
# Label Encoding
df['label'] = df['label'].apply(lambda x:0 if x==0 else 1)
df

Unnamed: 0,Teks,label
0,[PROMO] Beli paket Flash mulai dari 1GB di APL...,1
1,"2,5 GB/30 hari hanya Rp 35 ribu Spesial buat k...",1
2,"08-07-2016 11:47:11.Plg Yang terhormat, sisa k...",1
3,"07-08-2016 11:29:47.Mohon Yang Terhormat, sisa...",1
4,4.5GB/30 hari hanya Rp 55 ribu khusus buat kam...,1
...,...,...
1138,"Yooo, sama-sama ya, nanti aku umumkan ke kelom...",0
1139,😁 Saya belum pernah menulis tentang cadar sebe...,0
1140,"Bu, saya mau kirim 300",0
1141,Nama1 berangkat pagi...mau tunai atau transfer?,0


In [5]:
# Data Cleaning 1
df['Teks']=df['Teks'].apply(cleaning_text)
df

Unnamed: 0,Teks,label
0,promo beli paket flash mulai dari di aplikasi ...,1
1,gb hari hanya rp ribu spesial buat kamu yang t...,1
2,plg yang terhormat sisa kuota flash anda adala...,1
3,mohon yang terhormat sisa kuota flash anda ada...,1
4,hari hanya rp ribu khusus buat kamu yang terpi...,1
...,...,...
1138,yooo sama sama ya nanti aku umumkan ke kelompo...,0
1139,saya belum pernah menulis tentang cadar sebelu...,0
1140,bu saya mau kirim,0
1141,berangkat pagi mau tunai atau transfer,0


In [6]:
# Stopword
df['Teks'] = df['Teks'].apply(lambda x: remove_stopword(x))
df

Unnamed: 0,Teks,label
0,promo beli paket flash mulai aplikasi my telko...,1
1,gb hari rp ribu spesial buat kamu terpilih akt...,1
2,plg terhormat sisa kuota flash download aplika...,1
3,mohon terhormat sisa kuota flash download apli...,1
4,hari rp ribu khusus buat kamu terpilih aktifka...,1
...,...,...
1138,yooo sama sama aku umumkan kelompok kelas,0
1139,pernah menulis cadar sebelumnya pikirkan warna...,0
1140,bu mau kirim,0
1141,berangkat pagi mau tunai transfer,0


In [7]:
# Stemming
df['Teks'] = df['Teks'].apply(lambda x: stem_tokens(x))
df

Unnamed: 0,Teks,label
0,promo beli paket flash mulai aplikasi my telko...,1
1,gb hari rp ribu spesial buat kamu pilih aktif ...,1
2,plg hormat sisa kuota flash download aplikasi ...,1
3,mohon hormat sisa kuota flash download aplikas...,1
4,hari rp ribu khusus buat kamu pilih aktif seka...,1
...,...,...
1138,yooo sama sama aku umum kelompok kelas,0
1139,pernah tulis cadar belum pikir warna jeans,0
1140,bu mau kirim,0
1141,berangkat pagi mau tunai transfer,0


In [8]:
# Data Cleaning 2
df['Teks']=df['Teks'].apply(remove_single_letter_words)
df

Unnamed: 0,Teks,label
0,promo beli paket flash mulai aplikasi my telko...,1
1,gb hari rp ribu spesial buat kamu pilih aktif ...,1
2,plg hormat sisa kuota flash download aplikasi ...,1
3,mohon hormat sisa kuota flash download aplikas...,1
4,hari rp ribu khusus buat kamu pilih aktif seka...,1
...,...,...
1138,yooo sama sama aku umum kelompok kelas,0
1139,pernah tulis cadar belum pikir warna jeans,0
1140,bu mau kirim,0
1141,berangkat pagi mau tunai transfer,0


In [9]:
df = df.rename(columns={'Teks': 'teks'})
df

Unnamed: 0,teks,label
0,promo beli paket flash mulai aplikasi my telko...,1
1,gb hari rp ribu spesial buat kamu pilih aktif ...,1
2,plg hormat sisa kuota flash download aplikasi ...,1
3,mohon hormat sisa kuota flash download aplikas...,1
4,hari rp ribu khusus buat kamu pilih aktif seka...,1
...,...,...
1138,yooo sama sama aku umum kelompok kelas,0
1139,pernah tulis cadar belum pikir warna jeans,0
1140,bu mau kirim,0
1141,berangkat pagi mau tunai transfer,0


In [10]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

def tokenize_text(df, column_name):
    keras_tokenizer = Tokenizer()
    keras_tokenizer.fit_on_texts(df[column_name]) # Memetakan setiap kata menjadi indeks
    
    vocab_size = len(keras_tokenizer.word_index) + 1
    sequences = keras_tokenizer.texts_to_sequences(df[column_name]) # Mengganti kata pada kalimat sesuai dengan indeksnya
    max_length_comment = max(len(seq) for seq in sequences)
    padded_sequences = pad_sequences(sequences, maxlen=max_length_comment) # Padding di awal sequence
    
    return keras_tokenizer, vocab_size

2024-12-29 15:24:33.574436: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-12-29 15:24:33.614033: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-12-29 15:24:33.622067: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-12-29 15:24:33.653744: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [11]:
keras_tokenizer, vocab_size = tokenize_text(df, 'teks')

In [12]:
import pickle

with open('/home/basilmusyaffa19/Skripsi Basil/Embedding Matrix/Dataset Indo/indo_keras_tokenizer.pickle', 'wb') as handle:
        pickle.dump(keras_tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)

In [13]:
df.to_excel('/home/basilmusyaffa19/Skripsi Basil/Dataset/FIX/clean_SMS_22112024.xlsx', index=False)