Projek Belajar Pengembangan Machine Learning - Adilah Widiasti - B244035E

In [None]:
# Mengimpor pustaka yang diperlukan untuk pemrosesan data dan model pembelajaran mendalam
import pandas as pd  # Mengimpor pustaka pandas untuk manipulasi dan analisis data, terutama untuk struktur data seperti DataFrame
import numpy as np  # Mengimpor pustaka numpy untuk operasi numerik dan manipulasi array
import tensorflow as tf  # Mengimpor pustaka TensorFlow untuk membangun dan melatih model pembelajaran mendalam
from sklearn.model_selection import train_test_split  # Mengimpor fungsi untuk membagi dataset menjadi data pelatihan dan pengujian
from sklearn.preprocessing import LabelEncoder  # Mengimpor LabelEncoder untuk mengubah label kategori menjadi format numerik
from sklearn.feature_extraction.text import TfidfVectorizer  # Mengimpor TfidfVectorizer untuk mengubah teks menjadi representasi numerik berbasis frekuensi
from tensorflow.keras.preprocessing.text import Tokenizer  # Mengimpor Tokenizer untuk mengonversi teks menjadi urutan token
from tensorflow.keras.preprocessing.sequence import pad_sequences  # Mengimpor pad_sequences untuk memastikan semua urutan memiliki panjang yang sama
from tensorflow.keras.models import Sequential  # Mengimpor model Sequential untuk membangun model pembelajaran mendalam secara berurutan
from tensorflow.keras.layers import Embedding, LSTM, GRU, Bidirectional, Conv1D, GlobalMaxPooling1D, Dense, Dropout, SpatialDropout1D  # Mengimpor berbagai lapisan untuk membangun arsitektur model
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau  # Mengimpor callback untuk menghentikan pelatihan lebih awal dan mengurangi laju pembelajaran saat tidak ada peningkatan

In [1]:
# Membaca Data Excel
dataframe = pd.read_csv('gojek_scrapped_data.csv')  # Membaca file CSV yang berisi data yang telah diambil dari Gojek dan menyimpannya dalam DataFrame

# Memisahkan Data
features = dataframe['content_clean']  # Mengambil kolom 'content_clean' sebagai fitur (data input)
labels = dataframe['polarity']  # Mengambil kolom 'polarity' sebagai label (data target)

# Mengubah label menjadi format numerik
encoder = LabelEncoder()  # Membuat objek LabelEncoder untuk mengubah label kategori menjadi format numerik
encoded_labels = encoder.fit_transform(labels)  # Mengubah label menjadi format numerik dan menyimpannya dalam variabel encoded_labels

# Pembagian Data: Skema 1 (80-20)
features_train_1, features_test_1, labels_train_1, labels_test_1 = train_test_split(features, encoded_labels, test_size=0.2, random_state=42)  
# Membagi data menjadi data pelatihan (80%) dan data pengujian (20%) untuk skema 1

# Pembagian Data: Skema 2 (70-30)
features_train_2, features_test_2, labels_train_2, labels_test_2 = train_test_split(features, encoded_labels, test_size=0.3, random_state=42)  
# Membagi data menjadi data pelatihan (70%) dan data pengujian (30%) untuk skema 2

# Tokenisasi dan Padding untuk Skema 1
tokenizer_1 = Tokenizer()  # Membuat objek Tokenizer untuk mengonversi teks menjadi urutan token
tokenizer_1.fit_on_texts(features_train_1)  # Melatih tokenizer pada data pelatihan
sequences_train_1 = tokenizer_1.texts_to_sequences(features_train_1)  # Mengonversi teks pelatihan menjadi urutan angka
sequences_test_1 = tokenizer_1.texts_to_sequences(features_test_1)  # Mengonversi teks pengujian menjadi urutan angka

max_length = 100  # Menentukan panjang maksimum urutan
size_vocab_1 = len(tokenizer_1.word_index) + 1  # Menghitung ukuran kosakata (jumlah kata unik + 1 untuk padding)
padded_train_1 = pad_sequences(sequences_train_1, maxlen=max_length, padding='post')  # Melakukan padding pada urutan pelatihan
padded_test_1 = pad_sequences(sequences_test_1, maxlen=max_length, padding='post')  # Melakukan padding pada urutan pengujian

# Tokenisasi dan Padding untuk Skema 2
tokenizer_2 = Tokenizer()  # Membuat objek Tokenizer untuk skema 2
tokenizer_2.fit_on_texts(features_train_2)  # Melatih tokenizer pada data pelatihan skema 2
sequences_train_2 = tokenizer_2.texts_to_sequences(features_train_2)  # Mengonversi teks pelatihan skema 2 menjadi urutan angka
sequences_test_2 = tokenizer_2.texts_to_sequences(features_test_2)  # Mengonversi teks pengujian skema 2 menjadi urutan angka

size_vocab_2 = len(tokenizer_2.word_index) + 1  # Menghitung ukuran kosakata untuk skema 2
padded_train_2 = pad_sequences(sequences_train_2, maxlen=max_length, padding='post')  # Melakukan padding pada urutan pelatihan skema 2
padded_test_2 = pad_sequences(sequences_test_2, maxlen=max_length, padding='post')  # Melakukan padding pada urutan pengujian skema 2

# Ekstraksi Fitur menggunakan TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_features=5000)  # Membuat objek TfidfVectorizer untuk mengubah teks menjadi representasi numerik berbasis frekuensi
tfidf_features = tfidf_vectorizer.fit_transform(features).toarray()  # Menghitung fitur TF-IDF dari data fitur dan mengonversinya menjadi array

# Memisahkan Data TF-IDF
tfidf_train, tfidf_test, labels_train_tfidf, labels_test_tfidf = train_test_split(tfidf_features, encoded_labels, test_size=0.2, random_state=42)  
# Membagi data TF-IDF menjadi data pelatihan (80%) dan data pengujian (20%)

In [None]:
# Pelatihan Model CNN
# Melatih dan mengevaluasi CNN dengan menggunakan TF-IDF
model_cnn_tfidf = Sequential()  # Membuat model Sequential untuk arsitektur CNN
model_cnn_tfidf.add(Dense(128, activation='relu', input_shape=(X_train_tfidf.shape[1],)))  
# Menambahkan lapisan Dense dengan 128 neuron dan fungsi aktivasi ReLU, serta menentukan bentuk input berdasarkan jumlah fitur TF-IDF

model_cnn_tfidf.add(Dropout(0.5))  # Menambahkan lapisan Dropout untuk mengurangi overfitting dengan mengabaikan 50% neuron secara acak
model_cnn_tfidf.add(Dense(64, activation='relu'))  # Menambahkan lapisan Dense kedua dengan 64 neuron dan fungsi aktivasi ReLU
model_cnn_tfidf.add(Dropout(0.5))  # Menambahkan lapisan Dropout kedua untuk mengurangi overfitting

model_cnn_tfidf.add(Dense(3, activation='softmax'))  # Menambahkan lapisan output dengan 3 neuron (untuk 3 kelas) dan fungsi aktivasi softmax untuk klasifikasi multi-kelas

# Mengompilasi model
model_cnn_tfidf.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])  
# Mengompilasi model dengan menggunakan fungsi loss sparse_categorical_crossentropy, optimizer Adam, dan metrik akurasi

# Mengatur Early Stopping dan Reduce Learning Rate
early_stop = EarlyStopping(monitor='val_loss', patience=2, restore_best_weights=True)  
# Mengatur EarlyStopping untuk menghentikan pelatihan jika tidak ada perbaikan pada loss validasi selama 2 epoch dan mengembalikan bobot terbaik
lr_reduction = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, min_lr=0.0001)  
# Mengatur pengurangan laju pembelajaran jika tidak ada perbaikan pada loss validasi selama 3 epoch, mengurangi laju pembelajaran dengan faktor 0.2

# Melatih model
training_history_cnn_tfidf = model_cnn_tfidf.fit(X_train_tfidf, y_train_tfidf, epochs=30, batch_size=32, validation_split=0.2, callbacks=[early_stop, lr_reduction])  
# Melatih model dengan data pelatihan TF-IDF, menggunakan 30 epoch, ukuran batch 32, dan 20% data untuk validasi, serta menerapkan callback early stopping dan pengurangan laju pembelajaran

# Mengevaluasi model
loss_cnn_tfidf, accuracy_cnn_tfidf = model_cnn_tfidf.evaluate(X_test_tfidf, y_test_tfidf)  
# Mengevaluasi model menggunakan data pengujian TF-IDF dan menyimpan nilai loss dan akurasi

# Menghitung akurasi pelatihan
train_accuracy_cnn_tfidf = max(training_history_cnn_tfidf.history['accuracy']) * 100  
# Menghitung akurasi maksimum selama pelatihan dari riwayat pelatihan dan mengalikannya dengan 100 untuk mendapatkan persentase

# Menampilkan hasil
print(f'Akurasi Pelatihan Model CNN (80-20 Split, TF-IDF): {train_accuracy_cnn_tfidf:.2f}%')  
# Menampilkan akurasi pelatihan model CNN
print(f'Akurasi Pengujian Model CNN (80-20 Split, TF-IDF): {accuracy_cnn_tfidf * 100:.2f}%')  
# Menampilkan akurasi pengujian model CNN

In [None]:
# Inferensi dengan CNN (menggunakan TF-IDF)
def infer_with_cnn_tfidf(model, vectorizer, input_text):
    # Mengubah teks input menjadi representasi TF-IDF
    tfidf_input = vectorizer.transform([input_text]).toarray()  
    # Menggunakan vectorizer untuk mengubah teks input menjadi representasi TF-IDF dan mengonversinya menjadi array

    # Melakukan prediksi menggunakan model CNN
    prediction = model.predict(tfidf_input)  
    # Menggunakan model CNN untuk memprediksi kelas dari representasi TF-IDF input

    # Mengembalikan kelas dengan probabilitas tertinggi
    return np.argmax(prediction, axis=1)[0]  
    # Mengembalikan indeks kelas dengan probabilitas tertinggi dari hasil prediksi

# Contoh teks untuk inferensi
sample_text = "Aplikasinya jelek, masa saya mau order ojek gak bisa."  
# Mendefinisikan contoh teks yang akan digunakan untuk inferensi

# Melakukan prediksi dengan CNN (TF-IDF)
predicted_class_cnn_tfidf = infer_with_cnn_tfidf(model_cnn_tfidf, tfidf_vectorizer, sample_text)  
# Memanggil fungsi infer_with_cnn_tfidf untuk mendapatkan prediksi kelas dari teks contoh

# Menampilkan hasil prediksi
print(f'Prediksi Model CNN (80-20 Split, TF-IDF): {label_encoder.inverse_transform([predicted_class_cnn_tfidf])[0]}')  
# Menggunakan label_encoder untuk mengonversi indeks kelas yang diprediksi kembali ke label asli dan menampilkannya

In [None]:
# Pelatihan Model Bi-GRU
def create_bigru_model(vocab_size, max_length):
    model = Sequential()
    model.add(Embedding(input_dim=vocab_size, output_dim=128, input_length=max_length))
    model.add(Bidirectional(GRU(128, dropout=0.4, recurrent_dropout=0.4)))
    model.add(Dense(3, activation='softmax'))
    model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    return model

def train_and_evaluate_bigru(X_train, y_train, X_test, y_test, vocab_size, max_length):
    model = create_bigru_model(vocab_size, max_length)
    early_stopping = EarlyStopping(monitor='val_loss', patience=2, restore_best_weights=True)
    lr_reduction = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, min_lr=0.0001)
    
    # Melatih model
    training_history = model.fit(X_train, y_train, epochs=30, batch_size=32, validation_split=0.2, callbacks=[early_stopping, lr_reduction])
    
    # Mengevaluasi model
    loss, accuracy = model.evaluate(X_test, y_test)
    max_train_accuracy = max(training_history.history['accuracy']) * 100
    return model, max_train_accuracy, accuracy * 100

# Melatih dan mengevaluasi Bi-GRU untuk Skema 1
bigru_model_scheme_1, train_accuracy_bigru_scheme_1, test_accuracy_bigru_scheme_1 = train_and_evaluate_bigru(X_train_pad_1, y_train_1, X_test_pad_1, y_test_1, vocab_size_1, max_len)
print(f'Akurasi Pelatihan Model Bi-GRU (80-20 Split): {train_accuracy_bigru_scheme_1:.2f}%')
print(f'Akurasi Pengujian Model Bi-GRU (80-20 Split): {test_accuracy_bigru_scheme_1:.2f}%')

# Melatih dan mengevaluasi Bi-GRU untuk Skema 2
bigru_model_scheme_2, train_accuracy_bigru_scheme_2, test_accuracy_bigru_scheme_2 = train_and_evaluate_bigru(X_train_pad_2, y_train_2, X_test_pad_2, y_test_2, vocab_size_2, max_len)
print(f'Akurasi Pelatihan Model Bi-GRU (70-30 Split): {train_accuracy_bigru_scheme_2:.2f}%')
print(f'Akurasi Pengujian Model Bi-GRU (70-30 Split): {test_accuracy_bigru_scheme_2:.2f}%')

# Melatih dan mengevaluasi Bi-GRU dengan TF-IDF
bigru_model_tfidf = Sequential()
bigru_model_tfidf.add(Dense(128, activation='relu', input_shape=(X_train_tfidf.shape[1],)))
bigru_model_tfidf.add(Dropout(0.5))
bigru_model_tfidf.add(Dense(64, activation='relu'))
bigru_model_tfidf.add(Dropout(0.5))
bigru_model_tfidf.add(Dense(3, activation='softmax'))

# Mengompilasi model
bigru_model_tfidf.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
early_stopping_tfidf = EarlyStopping(monitor='val_loss', patience=2, restore_best_weights=True)
lr_reduction_tfidf = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, min_lr=0.0001)

# Melatih model TF-IDF
history_bigru_tfidf = bigru_model_tfidf.fit(X_train_tfidf, y_train_tfidf, epochs=30, batch_size=32, validation_split=0.2, callbacks=[early_stopping_tfidf, lr_reduction_tfidf])

# Mengevaluasi model TF-IDF
loss_bigru_tfidf, accuracy_bigru_tfidf = bigru_model_tfidf.evaluate(X_test_tfidf, y_test_tfidf)
train_accuracy_bigru_tfidf = max(history_bigru_tfidf.history['accuracy']) * 100

# Menampilkan hasil
print(f'Akurasi Pelatihan Model Bi-GRU (80-20 Split, TF-IDF): {train_accuracy_bigru_tfidf:.2f}%')
print(f'Akurasi Pengujian Model Bi-GRU (80-20 Split, TF-IDF): {accuracy_bigru_tfidf * 100:.2

In [None]:
# Inferensi dengan Bi-GRU (Skema 80-20)
def predict_with_bigru_scheme_1(model, tokenizer, input_text, max_length):
    # Mengubah teks input menjadi urutan angka
    sequence = tokenizer.texts_to_sequences([input_text])
    # Melakukan padding pada urutan
    padded_sequence = pad_sequences(sequence, maxlen=max_length, padding='post')
    # Melakukan prediksi menggunakan model
    prediction = model.predict(padded_sequence)
    # Mengembalikan kelas dengan probabilitas tertinggi
    return np.argmax(prediction, axis=1)[0]

# Inferensi dengan Bi-GRU (Skema 70-30)
def predict_with_bigru_scheme_2(model, tokenizer, input_text, max_length):
    sequence = tokenizer.texts_to_sequences([input_text])
    padded_sequence = pad_sequences(sequence, maxlen=max_length, padding='post')
    prediction = model.predict(padded_sequence)
    return np.argmax(prediction, axis=1)[0]

# Inferensi dengan Bi-GRU (menggunakan TF-IDF)
def predict_with_bigru_tfidf(model, vectorizer, input_text):
    # Mengubah teks input menjadi representasi TF-IDF
    tfidf_input = vectorizer.transform([input_text]).toarray()
    prediction = model.predict(tfidf_input)
    return np.argmax(prediction, axis=1)[0]

# Contoh teks untuk inferensi
sample_text = "Gojek memang terbaik, memudahkan saya mau kemana aja"

# Melakukan prediksi dengan Bi-GRU (Skema 80-20)
prediction_bigru_scheme_1 = predict_with_bigru_scheme_1(bigru_model_1, tokenizer_1, sample_text, max_len)
print(f'Prediksi Model Bi-GRU (Skema 80-20): {label_encoder.inverse_transform([prediction_bigru_scheme_1])[0]}')

# Melakukan prediksi dengan Bi-GRU (Skema 70-30)
prediction_bigru_scheme_2 = predict_with_bigru_scheme_2(bigru_model_2, tokenizer_2, sample_text, max_len)
print(f'Prediksi Model Bi-GRU (Skema 70-30): {label_encoder.inverse_transform([prediction_bigru_scheme_2])[0]}')

# Melakukan prediksi dengan Bi-GRU (TF-IDF)
prediction_bigru_tfidf = predict_with_bigru_tfidf(bigru_model_tfidf, tfidf_vectorizer, sample_text)
print(f'Prediksi Model Bi-GRU (Skema 80-20, TF-IDF): {label_encoder.inverse_transform([prediction_bigru_tfidf])[0]}')

In [None]:
# Pelatihan Model LSTM
def create_lstm_model(vocab_size, max_length):
    # Membuat model LSTM dengan arsitektur yang ditentukan
    model = Sequential()
    # Menambahkan layer embedding untuk mengubah kata menjadi vektor
    model.add(Embedding(input_dim=vocab_size, output_dim=128, input_length=max_length))
    # Menambahkan dropout spatial untuk mengurangi overfitting
    model.add(SpatialDropout1D(0.4))
    # Menambahkan layer LSTM dengan dropout untuk mengurangi overfitting
    model.add(LSTM(128, dropout=0.4, recurrent_dropout=0.4))
    # Menambahkan layer dense dengan fungsi aktivasi softmax untuk klasifikasi
    model.add(Dense(3, activation='softmax'))
    # Mengompilasi model dengan loss function dan optimizer yang ditentukan
    model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    return model

def train_and_evaluate_lstm(X_train, y_train, X_test, y_test, vocab_size, max_length):
    # Membuat model LSTM
    model = create_lstm_model(vocab_size, max_length)
    # Mengatur callback untuk early stopping dan pengurangan learning rate
    early_stopping_callback = EarlyStopping(monitor='val_loss', patience=1, restore_best_weights=True)
    lr_reduction_callback = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, min_lr=0.0001)
    
    # Melatih model dengan data pelatihan dan validasi
    training_history = model.fit(X_train, y_train, epochs=30, batch_size=32, validation_split=0.2, callbacks=[early_stopping_callback, lr_reduction_callback])
    
    # Mengevaluasi model dengan data pengujian
    loss, accuracy = model.evaluate(X_test, y_test)
    max_train_accuracy = max(training_history.history['accuracy']) * 100
    return model, max_train_accuracy, accuracy * 100

# Melatih dan mengevaluasi LSTM dengan TF-IDF
lstm_model_tfidf = Sequential()
# Menambahkan layer dense untuk model TF-IDF
lstm_model_tfidf.add(Dense(128, activation='relu', input_shape=(X_train_tfidf.shape[1],)))
# Menambahkan dropout untuk mengurangi overfitting
lstm_model_tfidf.add(Dropout(0.5))
# Menambahkan layer dense tambahan
lstm_model_tfidf.add(Dense(64, activation='relu'))
# Menambahkan dropout lagi
lstm_model_tfidf.add(Dropout(0.5))
# Menambahkan layer output dengan softmax untuk klasifikasi
lstm_model_tfidf.add(Dense(3, activation='softmax'))

# Mengompilasi model TF-IDF
lstm_model_tfidf.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Mengatur Early Stopping dan Reduce Learning Rate untuk model TF-IDF
early_stopping_tfidf = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)
lr_reduction_tfidf = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, min_lr=0.0001)

# Melatih model TF-IDF
history_lstm_tfidf = lstm_model_tfidf.fit(X_train_tfidf, y_train_tfidf, epochs=30, batch_size=32, validation_split=0.2, callbacks=[early_stopping_tfidf, lr_reduction_tfidf])

# Mengevaluasi model TF-IDF
loss_lstm_tfidf, accuracy_lstm_tfidf = lstm_model_tfidf.evaluate(X_test_tfidf, y_test_tfidf)
train_accuracy_lstm_tfidf = max(history_lstm_tfidf.history['accuracy']) * 100

# Menampilkan hasil akurasi pelatihan dan pengujian
print(f'Akurasi Pelatihan Model LSTM (80-20 Split, TF-IDF): {train_accuracy_lstm_tfidf:.2f}%')
print(f'Akurasi Pengujian Model LSTM (80-20 Split, TF-IDF): {accuracy_lstm_tfidf * 100:.2f}%')

In [None]:
# Inferensi dengan LSTM (menggunakan TF-IDF)
def predict_with_lstm_tfidf(model, vectorizer, input_text):
    # Mengubah teks input menjadi representasi TF-IDF
    tfidf_representation = vectorizer.transform([input_text]).toarray()
    # Melakukan prediksi menggunakan model LSTM
    prediction = model.predict(tfidf_representation)
    # Mengembalikan kelas dengan probabilitas tertinggi
    return np.argmax(prediction, axis=1)[0]

# Contoh teks untuk inferensi
sample_input = "Aplikasinya biasa sih."

# Melakukan prediksi dengan LSTM (TF-IDF)
predicted_class_lstm_tfidf = predict_with_lstm_tfidf(lstm_model_tfidf, tfidf_vectorizer, sample_input)
print(f'Prediksi Model LSTM (80-20 Split, TF-IDF): {label_encoder.inverse_transform([predicted_class_lstm_tfidf])[0]}')

In [None]:
# Menyimpan daftar pustaka yang terpasang ke dalam file requirements.txt
!pip freeze > requirements.txt  # Menggunakan pip freeze untuk mencatat semua pustaka yang terinstal beserta versinya