# Load Data

In [1]:
!pip install datasets -qq

In [2]:
from datasets import load_dataset

dataset = load_dataset("haryoaw/stif-indonesia")

In [3]:
import pandas as pd

df_train = pd.DataFrame(dataset['train'])
df_test = pd.DataFrame(dataset['test'])
df_dev = pd.DataFrame(dataset['dev'])

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

# Preprocessing

In [5]:
import re
import string
from nltk.tokenize import word_tokenize

def preprocess_sentence(sentence):
    sentence = sentence.lower()
    sentence = re.sub(r'@\S+', '', sentence)
    sentence = re.sub(r'http\S+', '', sentence)
    sentence = re.sub(r'pic.\S+', '', sentence)
    sentence = re.sub(r"[^a-zA-ZáéíóúÁÉÍÓÚ']", ' ', sentence)
    sentence = re.sub(r'\s+[a-zA-ZáéíóúÁÉÍÓÚ]\s+', ' ', sentence + ' ')
    sentence = "".join([i for i in sentence if i not in string.punctuation])
    words = word_tokenize(sentence)
    sentence = " ".join(words)
    sentence = re.sub("\s[\s]+", " ", sentence).strip()
    sentence = re.sub("\s[\s]+", " ", sentence).strip()
    return sentence


# Menggunakan fungsi pada kolom informal dan formal
df_train['informal'] = df_train['informal'].apply(preprocess_sentence)
df_train['formal'] = df_train['formal'].apply(preprocess_sentence)

df_test['informal'] = df_test['informal'].apply(preprocess_sentence)
df_test['formal'] = df_test['formal'].apply(preprocess_sentence)

df_dev['informal'] = df_dev['informal'].apply(preprocess_sentence)
df_dev['formal'] = df_dev['formal'].apply(preprocess_sentence)

In [6]:
# Fungsi untuk menghapus pola tertentu
def remove_patterns(text):
    # Menghapus pola xxxuserxxx dan xxxnumberxxx
    text_cleaned = re.sub(r'xxxuserxxx|xxxnumberxxx|xxxphonexxx|xxxdatexxx|xxxmoneyxxx|xxxemailxxx|xxxpercentxxx|xxxtimexxx', '', text)
    return text_cleaned

# Menggunakan fungsi pada kolom informal dan formal
df_train['informal'] = df_train['informal'].apply(remove_patterns)
df_train['formal'] = df_train['formal'].apply(remove_patterns)

df_test['informal'] = df_test['informal'].apply(remove_patterns)
df_test['formal'] = df_test['formal'].apply(remove_patterns)

df_dev['informal'] = df_dev['informal'].apply(remove_patterns)
df_dev['formal'] = df_dev['formal'].apply(remove_patterns)

In [7]:
df_train

Unnamed: 0,informal,formal
0,alhamdulillah stlh libur hari onbid lgsg dika...,alhamdulillah setelah libur hari onbid langsu...
1,selamat sore min saya mau pesan tiket ka via w...,selamat sore admin saya mau pesan tiket ka via...
2,iya kak terimakasih tapi tadi sudah datang ke ...,iya kak terima kasih tetapi tadi sudah datang ...
3,malam min situs kalian error ya mau order da...,malam admin apakah situs kalian error mau or...
4,min pembelian token pln apa ada kendala ini bl...,admin pembelian token pln apa ada kendala ini ...
...,...,...
1917,halo bni ini maintenance banking nya selesai k...,halo bni ini maintenance bankingnya selesai kapan
1918,malam mau komplain paket statusnya sudah sampa...,malam saya mau komplain paket statusnya sudah ...
1919,sepertinya merchant emang sengaja pada gak mau...,sepertinya merchant memang sengaja tidak mau m...
1920,yaallah kaka kelas sma gua viral anjerr,ya allah kakak kelas sma saya viral


In [8]:
df_test

Unnamed: 0,informal,formal
0,belum ada konfirmasi lagi kah min,belum ada konfirmasi lagikah admin
1,matiin notif yg itu kmrn jg sampah bgt notif g...,matikan notifikasi yang itu kemarin juga sampa...
2,kak untuk keluhan telkomsel silahkan konfirmas...,kak untuk keluhan telkomsel silahkan konfirmas...
3,another attempted fraud potensi penipuan atas ...,percobaan penipuan lainnya potensi penipuan at...
4,tolong dong udah kayagini kenapa ya,tolong sudah seperti ini kenapa
...,...,...
358,kok malah tambah lemot jaringan saya,mengapa malah tambah lambat jaringan saya
359,halo sat lagi ada troble apani mau paketin ye...,halo sedang ada masalah apakah mau membeli pa...
360,min tolong cek dm saya terkait keluhan paket saya,admin tolong periksa dm saya terkait keluhan p...
361,halo admin paket eg kr sudh sampai mana track...,halo admin paket sudah sampai mana pelacakan...


In [9]:
df_dev

Unnamed: 0,informal,formal
0,kalian juga tdk banyak membantu terkait dengan...,kalian juga tidak banyak membantu terkait deng...
1,kan akun lu private jd kaga bisa liat mereka,kan akun kamu private jadi mereka tidak bisa l...
2,min kenapa akun saya tidak ditemukan ya apakah...,admin mengapa akun saya tidak ditemukan apakah...
3,akun sy sdh premium tolong cashback yg seharus...,akun saya sudah premium tolong cashback yang s...
4,tolong cek dm yaa min thx,tolong periksa dm min terima kasih
...,...,...
209,saya salah pilihan isi resi harusnya otomatis ...,saya salah pilihan isi resi harusnya otomatis ...
210,tfr ke rek rdn dari jum at siang sampe sekaran...,transfer ke rekening rdn dari jumat siang samp...
211,oh iyaa pak eko kalo gue pake modem andromax ...,oh iya pak eko kalau saya pakai modem androma...
212,gojek sepersepuluh hidupku makasih gojek telah...,gojek sepersepuluh hidupku terima kasih gojek ...


In [10]:
import pandas as pd

X_train = df_train['informal']
y_train = df_train['formal']


In [11]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Inisialisasi Tokenizer untuk teks formal
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)

# Konversi teks formal ke urutan angka
X_train_seq = tokenizer.texts_to_sequences(X_train)

# Padding urutan angka untuk teks formal
X_train_padded = pad_sequences(X_train_seq)

# Inisialisasi Tokenizer untuk label
tokenizer_y = Tokenizer()
tokenizer_y.fit_on_texts(y_train)

# Konversi teks ke urutan angka untuk label
y_train_seq = tokenizer_y.texts_to_sequences(y_train)

# Padding urutan angka untuk label
y_train_padded = pad_sequences(y_train_seq, maxlen=X_train_padded.shape[1])

# Modelling LSTM

In [12]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.regularizers import l2

# Inisialisasi model
model = Sequential()

# Layer embedding
model.add(Embedding(input_dim=len(tokenizer.word_index) + 1, output_dim=100000, input_length=X_train_padded.shape[1]))

# Layer LSTM
model.add(LSTM(512, return_sequences=True))
model.add(Dropout(0.5))

# Layer output dengan jumlah kelas sesuai dengan label
model.add(Dense(len(tokenizer_y.word_index) + 1, activation='softmax'))

# Kompilasi model dengan learning rate yang berbeda
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Tampilkan ringkasan model
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 27, 100000)        436900000 
                                                                 
 lstm (LSTM)                 (None, 27, 512)           205850624 
                                                                 
 dropout (Dropout)           (None, 27, 512)           0         
                                                                 
 dense (Dense)               (None, 27, 3402)          1745226   
                                                                 
Total params: 644495850 (2.40 GB)
Trainable params: 644495850 (2.40 GB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [13]:
num_unique_words = len(tokenizer.word_index) + 1
print("Jumlah unik kata:", num_unique_words)


Jumlah unik kata: 4369


In [14]:
from tensorflow.keras.callbacks import EarlyStopping

# Define EarlyStopping callback
early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

# Train the model with EarlyStopping
history = model.fit(X_train_padded, y_train_padded, epochs=300, batch_size=32, validation_split=0.2, callbacks=[early_stopping])

Epoch 1/300
Epoch 2/300
Epoch 3/300
Epoch 4/300
Epoch 5/300
Epoch 6/300
Epoch 7/300
Epoch 8/300
Epoch 9/300
Epoch 10/300
Epoch 11/300
Epoch 12/300
Epoch 13/300
Epoch 14/300
Epoch 15/300
Epoch 16/300
Epoch 17/300


# Predicting

In [15]:
# Tokenisasi teks informal pada data pengujian
X_dev_seq = tokenizer.texts_to_sequences(df_dev['informal'])
X_dev_padded = pad_sequences(X_dev_seq, maxlen=X_train_padded.shape[1])

# Lakukan prediksi
predicted_sequences = model.predict(X_dev_padded)

# Ambil indeks kelas dengan nilai probabilitas tertinggi untuk setiap langkah waktu
predicted_classes = predicted_sequences.argmax(axis=-1)

# Konversi indeks kelas kembali ke teks formal
predicted_texts = tokenizer_y.sequences_to_texts(predicted_classes)





In [16]:
from nltk.translate.bleu_score import sentence_bleu, corpus_bleu

# Tokenisasi teks formal pada data pengujian
y_dev_seq = tokenizer_y.texts_to_sequences(df_dev['formal'])
y_dev_padded = pad_sequences(y_dev_seq, maxlen=X_train_padded.shape[1])

# Ambil indeks kelas dengan nilai probabilitas tertinggi untuk setiap langkah waktu
predicted_classes = predicted_sequences.argmax(axis=-1)

# Konversi indeks kelas kembali ke teks formal
predicted_texts = tokenizer_y.sequences_to_texts(predicted_classes)

# Tokenisasi teks formal pada data pengujian
references = tokenizer_y.sequences_to_texts(y_dev_seq)

# Tokenisasi teks formal yang diprediksi
hypotheses = tokenizer_y.sequences_to_texts(predicted_classes)

# Hitung BLEU score untuk setiap kalimat
bleu_scores = [sentence_bleu([ref.split()], hyp.split()) for ref, hyp in zip(references, hypotheses)]

# Hitung BLEU score untuk seluruh corpus
corpus_bleu_score = corpus_bleu([[ref.split()] for ref in references], [hyp.split() for hyp in hypotheses])

print("BLEU Scores for Each Sentence:")
for i, score in enumerate(bleu_scores, start=1):
    print(f"Sentence {i}: {score:.4f}")

print("\nCorpus BLEU Score:", corpus_bleu_score)


BLEU Scores for Each Sentence:
Sentence 1: 0.7964
Sentence 2: 0.0000
Sentence 3: 0.4250
Sentence 4: 0.5334
Sentence 5: 0.0000
Sentence 6: 0.0000
Sentence 7: 0.0000
Sentence 8: 0.0000
Sentence 9: 0.6606
Sentence 10: 0.2622
Sentence 11: 0.0000
Sentence 12: 0.5373
Sentence 13: 0.5828
Sentence 14: 0.5460
Sentence 15: 0.0000
Sentence 16: 0.0000
Sentence 17: 0.0000
Sentence 18: 0.4740
Sentence 19: 0.6407
Sentence 20: 0.0000
Sentence 21: 0.3453
Sentence 22: 0.6148
Sentence 23: 0.4548
Sentence 24: 0.0000
Sentence 25: 0.4061
Sentence 26: 0.7598
Sentence 27: 0.0000
Sentence 28: 0.0000
Sentence 29: 0.4500
Sentence 30: 0.6148
Sentence 31: 0.0000
Sentence 32: 0.5918
Sentence 33: 0.0000
Sentence 34: 0.5342
Sentence 35: 0.0000
Sentence 36: 0.0000
Sentence 37: 0.0000
Sentence 38: 0.5306
Sentence 39: 0.7017
Sentence 40: 0.0000
Sentence 41: 0.0000
Sentence 42: 0.1805
Sentence 43: 0.4238
Sentence 44: 0.7366
Sentence 45: 0.0000
Sentence 46: 0.0000
Sentence 47: 0.2669
Sentence 48: 0.0000
Sentence 49: 0.000

The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 2-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


In [17]:
# Tokenisasi teks informal pada data uji
X_test_seq = tokenizer.texts_to_sequences(df_test['informal'])
X_test_padded = pad_sequences(X_test_seq, maxlen=X_train_padded.shape[1])

# Lakukan prediksi
predicted_sequences_test = model.predict(X_test_padded)

# Ambil indeks kelas dengan nilai probabilitas tertinggi untuk setiap langkah waktu
predicted_classes_test = predicted_sequences_test.argmax(axis=-1)

# Konversi indeks kelas kembali ke teks formal
predicted_texts_test = tokenizer_y.sequences_to_texts(predicted_classes_test)



In [18]:
predicted_texts

['juga tidak banyak membantu terkait dengan jaringan kalian yang terima',
 'akun kamu jadi tidak bisa bisa tidak',
 'admin mengapa akun saya tidak bagaimana bagaimana apakah admin saya punya akun saya',
 'akun saya sudah sudah tolong cashback yang bayar saya dapat untuk transaksi tanggal segera',
 'tolong cek dm dm admin kasih',
 'lalu saya beli paket sudah bayar sudah tapi tetapi sampai sekarang belum masih dalam berapa ya sudah seminggu',
 'order saya saya belum sampai tujuan sampai tanggal belum ini resinya',
 'tolong balas dm saya admin',
 'admin admin bonus pulsanya bisa untuk paket data tidak tidak',
 'juga admin kasih sudah respons rumah di ada saja admin tidak ada yang terima terima juga tidak ada yang namanya',
 'aku sekali',
 'saya pernah seperti ini ini sadar',
 'sudah hari status belum juga berubah hari admin tadi sudah telepon katanya hanya suruh menunggu',
 'ayo di pelanggan indosat yang suka yang pulsanya atau sinyal jelek ayo pindah ke',
 'ini tahu serasa tidak di sama 

In [19]:
from nltk.translate.bleu_score import sentence_bleu, corpus_bleu

# Tokenisasi teks formal pada data uji
y_test_seq = tokenizer_y.texts_to_sequences(df_test['formal'])
y_test_padded = pad_sequences(y_test_seq, maxlen=X_train_padded.shape[1])

# Tokenisasi teks formal pada data uji
references_test = tokenizer_y.sequences_to_texts(y_test_seq)

# Tokenisasi teks formal yang diprediksi pada data uji
hypotheses_test = tokenizer_y.sequences_to_texts(predicted_classes_test)


# Hitung BLEU score untuk setiap kalimat pada data uji
bleu_scores_test = [sentence_bleu([ref.split()], hyp.split()) for ref, hyp in zip(references_test, hypotheses_test)]

# Hitung BLEU score untuk seluruh corpus pada data uji
corpus_bleu_score_test = corpus_bleu([[ref.split()] for ref in references_test], [hyp.split() for hyp in hypotheses_test])

print("BLEU Scores for Each Sentence on Test Data:")
for i, score in enumerate(bleu_scores_test, start=1):
    print(f"Sentence {i}: {score:.4f}")

print("\nCorpus BLEU Score on Test Data:", corpus_bleu_score_test)


BLEU Scores for Each Sentence on Test Data:
Sentence 1: 0.0000
Sentence 2: 0.4666
Sentence 3: 0.0000
Sentence 4: 0.2326
Sentence 5: 0.0000
Sentence 6: 0.0000
Sentence 7: 0.0000
Sentence 8: 1.0000
Sentence 9: 0.4301
Sentence 10: 0.0000
Sentence 11: 0.0000
Sentence 12: 0.1851
Sentence 13: 0.5361
Sentence 14: 0.5411
Sentence 15: 1.0000
Sentence 16: 0.0000
Sentence 17: 0.3247
Sentence 18: 0.0000
Sentence 19: 0.7515
Sentence 20: 0.8948
Sentence 21: 0.0000
Sentence 22: 0.0000
Sentence 23: 0.0000
Sentence 24: 0.0000
Sentence 25: 0.3124
Sentence 26: 0.3439
Sentence 27: 0.0000
Sentence 28: 0.0000
Sentence 29: 0.0000
Sentence 30: 0.6004
Sentence 31: 0.0000
Sentence 32: 0.4740
Sentence 33: 0.0000
Sentence 34: 0.4172
Sentence 35: 0.0000
Sentence 36: 0.4671
Sentence 37: 0.0000
Sentence 38: 0.2474
Sentence 39: 0.0000
Sentence 40: 0.8187
Sentence 41: 0.0000
Sentence 42: 0.1467
Sentence 43: 0.0000
Sentence 44: 0.5204
Sentence 45: 0.6130
Sentence 46: 0.3067
Sentence 47: 0.5314
Sentence 48: 0.0000
Sente

In [20]:
import pandas as pd

# Buat DataFrame
df_results = pd.DataFrame({
    'actual': df_test['formal'],
    'predicted': predicted_texts_test,
    'bleu score' : bleu_scores_test
})

# Tampilkan DataFrame
df_results

Unnamed: 0,actual,predicted,bleu score
0,belum ada konfirmasi lagikah admin,ada konfirmasi lagi sedang admin,9.283143e-155
1,matikan notifikasi yang itu kemarin juga sampa...,matikan tiba yang itu kemarin juga sampah seka...,4.665904e-01
2,kak untuk keluhan telkomsel silahkan konfirmas...,kak yang telkomsel yang kami di kak,3.221907e-78
3,percobaan penipuan lainnya potensi penipuan at...,atas nama jek sudah hadiah ada yang mau menggu...,2.326304e-01
4,tolong sudah seperti ini kenapa,tolong tolong sudah mengapa ya,8.388266e-155
...,...,...,...
358,mengapa malah tambah lambat jaringan saya,mengapa tambah lambat jaringan saya,5.789301e-01
359,halo sedang ada masalah apakah mau membeli pa...,halo lagi ada lagi mau mau tidak mengapa tidak...,9.711930e-232
360,admin tolong periksa dm saya terkait keluhan p...,admin tolong cek dm saya terkait ke paket saya,5.929499e-78
361,halo admin paket sudah sampai mana pelacakan...,admin paket halo tetapi sudah sampai mana dari...,4.661033e-78


In [21]:
df_results.to_excel('hasil_lstm.xlsx', index=False)