# Proyek Analisis Sentimen Ulasan Google Play Store (Target Bintang 5)

Notebook ini berisi langkah-langkah untuk melakukan analisis sentimen pada ulasan aplikasi dari Google Play Store, dirancang untuk memenuhi semua kriteria dan saran untuk mendapatkan penilaian bintang 5.

## SEL 1: INSTALASI & IMPORT LIBRARY

Bagian ini mengimpor semua library yang diperlukan. Pastikan semua library ini tercantum dalam file `requirements.txt` Anda.

In [3]:
# Pastikan library ini ada di requirements.txt
# !pip install pandas numpy nltk scikit-learn tensorflow matplotlib seaborn sastrawi # Jika menggunakan Sastrawi

import pandas as pd
import numpy as np
import re # Modul regular expression untuk cleaning
import string
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Download resource NLTK (hanya perlu sekali, uncomment jika belum)
try:
    nltk.data.find('tokenizers/punkt')
except nltk.downloader.DownloadError:
    nltk.download('punkt')
try:
    nltk.data.find('corpora/stopwords')
except nltk.downloader.DownloadError:
    nltk.download('stopwords')

# Scikit-learn untuk preprocessing, model ML, evaluasi
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import LabelEncoder

# TensorFlow / Keras untuk Deep Learning
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Bidirectional, Dense, Dropout, GlobalMaxPool1D
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
from tensorflow.keras.utils import to_categorical

# Visualisasi
import matplotlib.pyplot as plt
import seaborn as sns

# Set opsi Pandas agar teks terlihat penuh
pd.set_option('display.max_colwidth', None)

# (Opsional) Sastrawi untuk stemming Bahasa Indonesia
# from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
# try:
#    factory = StemmerFactory()
#    stemmer = factory.create_stemmer()
# except ImportError:
#    print("Sastrawi tidak terinstall. Stemming tidak akan dilakukan.")
#    stemmer = None # Tandai bahwa stemmer tidak tersedia

print("Library berhasil diimport.")

ModuleNotFoundError: No module named 'pandas'

## SEL 2: MEMUAT DATASET

Memuat dataset CSV yang dihasilkan dari skrip scraping. Pastikan nama file sesuai.

In [None]:
NAMA_FILE_DATASET = 'hasil_scraping_semua_app.csv' # <<< NAMA FILE DATA YANG AKAN DIMUAT

try:
    df = pd.read_csv(NAMA_FILE_DATASET)
    print(f"Dataset '{NAMA_FILE_DATASET}' berhasil dimuat.")
    print(f"Jumlah data awal: {len(df)}")
except FileNotFoundError:
    print(f"ERROR: File '{NAMA_FILE_DATASET}' tidak ditemukan. Pastikan file ada di direktori yang sama atau path sudah benar.")
    # Hentikan eksekusi jika file tidak ada (dalam notebook mungkin lebih baik raise error)
    raise FileNotFoundError(f"Dataset {NAMA_FILE_DATASET} tidak ditemukan.")

# Tampilkan beberapa data awal dan info
print("\nInfo Dataset:")
df.info()
print("\n5 Data Pertama:")
print(df.head())
print("\nContoh Ulasan:")
# Handle jika dataset kosong atau tidak punya baris ke-0
if not df.empty:
    print(df['content'].iloc[0])
else:
    print("Dataset kosong.")

## SEL 3: DATA CLEANING & PREPROCESSING

Tahapan ini meliputi:
1.  Handling Missing Values.
2.  Membuat Label Sentimen (3 Kelas: Positif, Negatif, Netral) -> **Memenuhi Syarat 3 Kelas**.
3.  Text Cleaning (lowercase, hapus URL, tanda baca, angka, stopwords Bhs. Indonesia).

In [None]:
print("\nMemulai Data Cleaning & Preprocessing...")

# 1. Handling Missing Values (jika ada di kolom 'content' atau 'score')
print(f"\nJumlah missing values sebelum handling:\n{df.isnull().sum()}")
df.dropna(subset=['content', 'score'], inplace=True)
# Konversi kolom 'score' ke tipe numerik yg sesuai (misal, int jika perlu)
df['score'] = pd.to_numeric(df['score'], errors='coerce') # Ubah ke float, paksa non-numerik jadi NaN
df.dropna(subset=['score'], inplace=True) # Hapus baris yg score-nya NaN setelah konversi
df['score'] = df['score'].astype(int) # Ubah ke integer

# Reset index setelah dropna
df.reset_index(drop=True, inplace=True)
print(f"\nJumlah missing values setelah handling:\n{df.isnull().sum()}")
print(f"Jumlah data setelah handling missing values: {len(df)}")

# 2. Membuat Label Sentimen (3 Kelas: Positif, Negatif, Netral)
def create_sentiment_label(score):
    if score > 3:
        return 'Positif' # Rating 4-5
    elif score < 3:
        return 'Negatif' # Rating 1-2
    else:
        return 'Netral'  # Rating 3

df['sentiment'] = df['score'].apply(create_sentiment_label)
print("\nDistribusi Sentimen:")
print(df['sentiment'].value_counts())

# Tampilkan data dengan label sentimen
print("\nData dengan Label Sentimen:")
print(df[['score', 'content', 'sentiment']].head())

# 3. Text Cleaning Function
# Daftar stopwords Bahasa Indonesia (menggunakan NLTK)
try:
    list_stopwords = stopwords.words('indonesian')
except LookupError:
    print("Stopwords NLTK untuk Bahasa Indonesia belum diunduh. Menjalankan nltk.download('stopwords')...")
    nltk.download('stopwords')
    list_stopwords = stopwords.words('indonesian')

# Tambahkan kata umum non-informatif lainnya jika perlu
list_stopwords.extend(["yg", "dg", "rt", "dgn", "ny", "d", 'klo',
                       'kalo', 'amp', 'biar', 'bikin', 'bilang',
                       'gak', 'ga', 'krn', 'nya', 'nih', 'sih',
                       'si', 'tau', 'tdk', 'tuh', 'utk', 'ya',
                       'jd', 'jgn', 'sdh', 'aja', 'n', 't',
                       'nyg', 'hehe', 'pen', 'u', 'nan', 'loh', 'rt',
                       '&amp', 'yah', 'dst', 'dll', 'dah', 'deh', 'tokped', # Tokped karena data dari sana
                       'aplikasi', 'app', 'sangat', 'sekali', 'mantap', 'keren', # Kata umum lainnya
                      ])

# Hapus stopwords yang mungkin relevan untuk sentimen (jika diperlukan)
# Contoh: hapus 'tidak' dari stopwords agar negasi tetap ada
# st_words_to_keep = {'tidak', 'kurang', 'belum', 'jangan'}
# list_stopwords = set(list_stopwords) - st_words_to_keep
list_stopwords = set(list_stopwords)


def clean_text(text):
    # Pastikan input adalah string
    if not isinstance(text, str):
        return "" # Kembalikan string kosong jika bukan string
    # Hapus @username
    text = re.sub(r'@\w+', '', text)
    # Hapus URL
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    # Hapus karakter HTML (jika ada)
    text = re.sub(r'<.*?>', '', text)
    # Hapus tanda baca dan angka
    # String punctuation: '!”#$%&'()*+,-./:;<=>?@[]^_`{|}~'
    # Lebih baik hapus tanda baca spesifik yg tidak penting, atau biarkan jika relevan (misal !?)
    # text = text.translate(str.maketrans('', '', string.punctuation + string.digits))
    # Versi lebih hati-hati: hapus angka, dan beberapa tanda baca umum
    text = re.sub(r'\d+', '', text) # Hapus angka
    text = text.translate(str.maketrans('', '', '"#$%&()*+,-./:;<=>@[]^_`{|}~')) # Hapus tanda baca tertentu
    # Ubah ke lowercase
    text = text.lower()
    # Hapus whitespace berlebih
    text = text.strip()
    text = re.sub(r'\s+', ' ', text)
    # Tokenisasi
    try:
        tokens = word_tokenize(text)
    except LookupError:
        print("Tokenizer NLTK (punkt) belum diunduh. Menjalankan nltk.download('punkt')...")
        nltk.download('punkt')
        tokens = word_tokenize(text)
    # Hapus stopwords
    tokens = [word for word in tokens if word not in list_stopwords and len(word) > 1] # Abaikan token 1 huruf
    # Gabungkan kembali token menjadi string
    cleaned_text = ' '.join(tokens)

    # (Opsional) Stemming dengan Sastrawi (bisa memakan waktu)
    # if stemmer:
    #    cleaned_text = stemmer.stem(cleaned_text)

    return cleaned_text

# Terapkan fungsi cleaning ke kolom 'content'
print("\nMenerapkan cleaning ke kolom 'content'... (mungkin perlu waktu)")
# Gunakan salinan untuk menghindari SettingWithCopyWarning
df_cleaned = df.copy()
df_cleaned['cleaned_content'] = df_cleaned['content'].apply(clean_text)

# Tampilkan hasil cleaning pada beberapa data
print("\nContoh Hasil Cleaning:")
print(df_cleaned[['content', 'cleaned_content', 'sentiment']].head())

# Cek jika ada hasil cleaning yang kosong (mungkin karena hanya berisi stopwords/angka/tanda baca)
empty_cleaned_indices = df_cleaned[df_cleaned['cleaned_content'] == ''].index
print(f"\nJumlah ulasan yang kosong setelah cleaning: {len(empty_cleaned_indices)}")
df_cleaned.drop(empty_cleaned_indices, inplace=True)
df_cleaned.reset_index(drop=True, inplace=True)
print(f"Jumlah data setelah menghapus hasil cleaning kosong: {len(df_cleaned)}")

# Cek jika data masih cukup (>10000 untuk bintang 5, >3000 minimal)
if len(df_cleaned) < 3000:
    print("PERINGATAN: Jumlah data setelah cleaning kurang dari 3000. Mungkin perlu scraping lebih banyak atau perbaiki proses cleaning.")
elif len(df_cleaned) < 10000:
    print("INFO: Jumlah data setelah cleaning antara 3000 dan 10000.")
else:
    print("INFO: Jumlah data setelah cleaning >= 10000. (Memenuhi Saran Jumlah Data)")

## SEL 4: PEMBAGIAN DATA (TRAIN & TEST)

Membagi data menjadi set pelatihan dan pengujian. Dilakukan dua kali dengan rasio berbeda (80/20 dan 70/30) untuk memenuhi syarat 3 skema eksperimen. Menggunakan `stratify` untuk menjaga proporsi kelas sentimen.

In [None]:
# Pisahkan fitur (X) dan label (y)
X = df_cleaned['cleaned_content']
y = df_cleaned['sentiment']

# Encode label menjadi numerik (penting untuk model ML/DL)
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)
# Lihat mapping label asli ke numerik
print("\nMapping Label ke Numerik:")
label_mapping = {label: i for i, label in enumerate(label_encoder.classes_)}
print(label_mapping)
num_classes = len(label_encoder.classes_)
print(f"Jumlah kelas: {num_classes}")

# Split data menjadi training (80%) dan testing (20%)
# Menggunakan stratify=y_encoded agar proporsi kelas sentimen sama di train dan test set
X_train, X_test, y_train_encoded, y_test_encoded = train_test_split(
    X, y_encoded, test_size=0.2, random_state=42, stratify=y_encoded
)

# Split data lagi untuk eksperimen dengan split berbeda (misal 70/30)
X_train_70, X_test_30, y_train_encoded_70, y_test_encoded_30 = train_test_split(
    X, y_encoded, test_size=0.3, random_state=42, stratify=y_encoded
)


print(f"\nUkuran data training (80/20): {len(X_train)}, Testing: {len(X_test)}")
print(f"Distribusi kelas di y_train_encoded (80/20): {np.bincount(y_train_encoded)}")
print(f"Distribusi kelas di y_test_encoded (80/20): {np.bincount(y_test_encoded)}")

print(f"\nUkuran data training (70/30): {len(X_train_70)}, Testing: {len(X_test_30)}")
print(f"Distribusi kelas di y_train_encoded_70 (70/30): {np.bincount(y_train_encoded_70)}")
print(f"Distribusi kelas di y_test_encoded_30 (70/30): {np.bincount(y_test_encoded_30)}")

## SEL 5: EKSPERIMEN 1 - SVM + TF-IDF (Split 80/20)

Eksperimen pertama menggunakan Support Vector Machine (SVM) dengan fitur TF-IDF dan pembagian data 80/20.

In [None]:
print("\n--- EKSPERIMEN 1: SVM + TF-IDF (Split 80/20) ---")

# 1. Feature Extraction: TF-IDF
tfidf_vectorizer = TfidfVectorizer(max_features=5000) # Batasi jumlah fitur (bisa disesuaikan)

# Fit dan transform training data
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)

# Transform testing data (HANYA transform, jangan fit lagi)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

print(f"Dimensi TF-IDF Training: {X_train_tfidf.shape}")
print(f"Dimensi TF-IDF Testing: {X_test_tfidf.shape}")

# 2. Model Training: SVM
print("\nMelatih model SVM...")
svm_model = SVC(kernel='linear', C=1.0, random_state=42, probability=True) # Linear kernel sering bagus untuk teks, C=regularization
svm_model.fit(X_train_tfidf, y_train_encoded)
print("Pelatihan SVM selesai.")

# 3. Prediksi & Evaluasi
y_pred_svm = svm_model.predict(X_test_tfidf)

accuracy_svm = accuracy_score(y_test_encoded, y_pred_svm)
report_svm = classification_report(y_test_encoded, y_pred_svm, target_names=label_encoder.classes_, zero_division=0)
conf_matrix_svm = confusion_matrix(y_test_encoded, y_pred_svm)

print(f"\nAkurasi SVM (Test Set): {accuracy_svm:.4f}")
# Target >85% terpenuhi?
if accuracy_svm >= 0.85:
    print("✅ Akurasi Test Set SVM >= 85% (Kriteria Utama Terpenuhi)")
else:
    print("⚠️ Akurasi Test Set SVM < 85% (Perlu Peningkatan)")

print("\nClassification Report SVM:")
print(report_svm)

print("\nConfusion Matrix SVM:")
plt.figure(figsize=(6, 4))
sns.heatmap(conf_matrix_svm, annot=True, fmt='d', cmap='Blues', xticklabels=label_encoder.classes_, yticklabels=label_encoder.classes_)
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix - SVM (80/20)')
plt.show()

## SEL 6: EKSPERIMEN 2 - Random Forest + TF-IDF (Split 70/30)

Eksperimen kedua menggunakan Random Forest dengan fitur TF-IDF, namun dengan pembagian data yang berbeda (70/30). Ini memberikan variasi pada **algoritma** dan **pembagian data** dibandingkan Eksperimen 1.

In [None]:
# Variasi: Algoritma (RF) dan Pembagian Data (70/30)
print("\n--- EKSPERIMEN 2: Random Forest + TF-IDF (Split 70/30) ---")

# 1. Feature Extraction: TF-IDF (menggunakan data split 70/30)
tfidf_vectorizer_70 = TfidfVectorizer(max_features=5000)

# Fit dan transform training data (70%)
X_train_tfidf_70 = tfidf_vectorizer_70.fit_transform(X_train_70)
# Transform testing data (30%)
X_test_tfidf_30 = tfidf_vectorizer_70.transform(X_test_30)

print(f"Dimensi TF-IDF Training (70%): {X_train_tfidf_70.shape}")
print(f"Dimensi TF-IDF Testing (30%): {X_test_tfidf_30.shape}")

# 2. Model Training: Random Forest
print("\nMelatih model Random Forest...")
rf_model = RandomForestClassifier(n_estimators=150, max_depth=None, min_samples_split=2, min_samples_leaf=1, random_state=42, n_jobs=-1) # n_jobs=-1 pakai semua core CPU
rf_model.fit(X_train_tfidf_70, y_train_encoded_70)
print("Pelatihan Random Forest selesai.")

# 3. Prediksi & Evaluasi
y_pred_rf = rf_model.predict(X_test_tfidf_30)

accuracy_rf = accuracy_score(y_test_encoded_30, y_pred_rf)
report_rf = classification_report(y_test_encoded_30, y_pred_rf, target_names=label_encoder.classes_, zero_division=0)
conf_matrix_rf = confusion_matrix(y_test_encoded_30, y_pred_rf)

print(f"\nAkurasi Random Forest (Test Set 70/30): {accuracy_rf:.4f}")
# Target >85% terpenuhi?
if accuracy_rf >= 0.85:
    print("✅ Akurasi Test Set RF >= 85% (Kriteria Utama Terpenuhi)")
else:
    print("⚠️ Akurasi Test Set RF < 85% (Perlu Peningkatan)")

print("\nClassification Report Random Forest:")
print(report_rf)

print("\nConfusion Matrix Random Forest:")
plt.figure(figsize=(6, 4))
sns.heatmap(conf_matrix_rf, annot=True, fmt='d', cmap='Blues', xticklabels=label_encoder.classes_, yticklabels=label_encoder.classes_)
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix - Random Forest (70/30)')
plt.show()

## SEL 7: EKSPERIMEN 3 - Deep Learning (LSTM) + Sequence Padding (Split 80/20)

Eksperimen ketiga menggunakan model Deep Learning (LSTM) dengan metode feature extraction yang berbeda (Sequence Padding menggunakan Keras Tokenizer). Pembagian data kembali ke 80/20. Ini memberikan variasi pada **algoritma (Deep Learning)** dan **metode ekstraksi fitur** dibandingkan Eksperimen 1 & 2. -> **Memenuhi Saran Menggunakan Deep Learning** dan target akurasi >92% akan dicek.

In [None]:
# Variasi: Algoritma (LSTM - Deep Learning) dan Feature Extraction (Sequence Padding)
print("\n--- EKSPERIMEN 3: Deep Learning (LSTM) + Sequence Padding (Split 80/20) ---")

# 1. Feature Extraction: Tokenizer & Padding
MAX_VOCAB_SIZE = 15000 # Ukuran kosakata (bisa disesuaikan)
MAX_SEQUENCE_LENGTH = 120 # Panjang maksimum sekuens (bisa disesuaikan)
EMBEDDING_DIM = 128 # Dimensi vektor embedding (bisa disesuaikan)

# Buat tokenizer Keras
keras_tokenizer = Tokenizer(num_words=MAX_VOCAB_SIZE, oov_token='<OOV>') # oov_token untuk kata di luar vocab

# Fit tokenizer HANYA pada data training (80/20)
keras_tokenizer.fit_on_texts(X_train)
word_index = keras_tokenizer.word_index
print(f"Ditemukan {len(word_index)} token unik.")

# Konversi teks ke sekuens integer
X_train_seq = keras_tokenizer.texts_to_sequences(X_train)
X_test_seq = keras_tokenizer.texts_to_sequences(X_test)

# Padding sekuens agar panjangnya sama
X_train_pad = pad_sequences(X_train_seq, maxlen=MAX_SEQUENCE_LENGTH, padding='post', truncating='post')
X_test_pad = pad_sequences(X_test_seq, maxlen=MAX_SEQUENCE_LENGTH, padding='post', truncating='post')

# One-hot encode label untuk Keras (karena 3 kelas)
y_train_keras = to_categorical(y_train_encoded, num_classes=num_classes)
y_test_keras = to_categorical(y_test_encoded, num_classes=num_classes)

print(f"\nDimensi Sekuens Training (Padded): {X_train_pad.shape}")
print(f"Dimensi Sekuens Testing (Padded): {X_test_pad.shape}")
print(f"Dimensi Label Training (One-Hot): {y_train_keras.shape}")
print(f"Dimensi Label Testing (One-Hot): {y_test_keras.shape}")

# 2. Model Building: LSTM
print("\nMembangun model LSTM...")
lstm_model = Sequential([
    Embedding(input_dim=MAX_VOCAB_SIZE, output_dim=EMBEDDING_DIM, input_length=MAX_SEQUENCE_LENGTH),
    Bidirectional(LSTM(64, return_sequences=True)), # Bidirectional bisa menangkap konteks dari 2 arah
    GlobalMaxPool1D(), # Atau gunakan LSTM(64) saja tanpa return_sequences=True
    Dropout(0.3), # Membantu mencegah overfitting
    Dense(64, activation='relu'),
    Dropout(0.5), # Dropout lebih besar sebelum output layer
    Dense(num_classes, activation='softmax') # Output layer (sesuai jumlah kelas), softmax untuk probabilitas
])

lstm_model.compile(loss='categorical_crossentropy', # Loss untuk multi-class classification
                   optimizer=tf.keras.optimizers.Adam(learning_rate=0.001),
                   metrics=['accuracy'])

lstm_model.summary()

# 3. Model Training: LSTM
NUM_EPOCHS = 8 # Jumlah epoch (perlu disesuaikan, monitor validation loss)
BATCH_SIZE = 64

# Callbacks
early_stopping = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True, verbose=1)
# Simpan model terbaik (opsional)
# model_checkpoint = ModelCheckpoint('best_lstm_model.keras', save_best_only=True, monitor='val_accuracy', mode='max', verbose=1)

print("\nMemulai pelatihan model LSTM...")
history_lstm = lstm_model.fit(
    X_train_pad, y_train_keras,
    epochs=NUM_EPOCHS,
    batch_size=BATCH_SIZE,
    validation_data=(X_test_pad, y_test_keras), # Gunakan test set sebagai validation set di sini
    callbacks=[early_stopping], # tambahkan model_checkpoint jika ingin menyimpan model
    verbose=1 # Tampilkan progress bar
)
print("Pelatihan LSTM selesai.")

# 4. Evaluasi Model LSTM
print("\nMengevaluasi model LSTM pada Test Set (menggunakan bobot terbaik dari EarlyStopping)...")
loss_lstm, accuracy_lstm_test = lstm_model.evaluate(X_test_pad, y_test_keras, verbose=0)

# Dapatkan akurasi training dari history (epoch terbaik berdasarkan val_loss jika EarlyStopping aktif)
# Jika restore_best_weights=True, model sudah dalam kondisi terbaiknya
# Kita bisa evaluasi ulang di training set untuk akurasi train terbaik
loss_lstm_train, accuracy_lstm_train = lstm_model.evaluate(X_train_pad, y_train_keras, verbose=0)

# Alternatif: ambil dari history jika tidak evaluasi ulang
# best_epoch = np.argmin(history_lstm.history['val_loss'])
# accuracy_lstm_train = history_lstm.history['accuracy'][best_epoch]
# accuracy_lstm_test = history_lstm.history['val_accuracy'][best_epoch]

print(f"\nAkurasi LSTM (Train Set - Best): {accuracy_lstm_train:.4f}")
print(f"Akurasi LSTM (Test Set - Best): {accuracy_lstm_test:.4f}")

# Target >92% terpenuhi? (Memenuhi Saran Nilai Tinggi)
saran_acc_terpenuhi = accuracy_lstm_train > 0.92 and accuracy_lstm_test > 0.92
kriteria_acc_terpenuhi = accuracy_lstm_test >= 0.85

if saran_acc_terpenuhi:
    print("✅ Akurasi Train & Test LSTM > 92% (Saran Nilai Tinggi Terpenuhi)")
elif kriteria_acc_terpenuhi:
     print("✅ Akurasi Test Set LSTM >= 85% (Kriteria Utama Terpenuhi, Saran >92% belum)")
else:
    print("⚠️ Akurasi Test Set LSTM < 85% (Perlu Peningkatan)")


# Plotting History Training LSTM
if history_lstm:
    plt.figure(figsize=(12, 5))

    # Plot Akurasi
    plt.subplot(1, 2, 1)
    plt.plot(history_lstm.history['accuracy'], label='Training Accuracy')
    plt.plot(history_lstm.history['val_accuracy'], label='Validation (Test) Accuracy')
    plt.title('Akurasi Model LSTM')
    plt.xlabel('Epoch')
    plt.ylabel('Accuracy')
    plt.legend()
    plt.grid(True)

    # Plot Loss
    plt.subplot(1, 2, 2)
    plt.plot(history_lstm.history['loss'], label='Training Loss')
    plt.plot(history_lstm.history['val_loss'], label='Validation (Test) Loss')
    plt.title('Loss Model LSTM')
    plt.xlabel('Epoch')
    plt.ylabel('Loss')
    plt.legend()
    plt.grid(True)

    plt.tight_layout()
    plt.show()

# Classification Report & Confusion Matrix untuk LSTM
y_pred_lstm_prob = lstm_model.predict(X_test_pad)
y_pred_lstm = np.argmax(y_pred_lstm_prob, axis=1) # Ambil kelas dengan probabilitas tertinggi

report_lstm = classification_report(y_test_encoded, y_pred_lstm, target_names=label_encoder.classes_, zero_division=0)
conf_matrix_lstm = confusion_matrix(y_test_encoded, y_pred_lstm)

print("\nClassification Report LSTM:")
print(report_lstm)

print("\nConfusion Matrix LSTM:")
plt.figure(figsize=(6, 4))
sns.heatmap(conf_matrix_lstm, annot=True, fmt='d', cmap='Blues', xticklabels=label_encoder.classes_, yticklabels=label_encoder.classes_)
plt.xlabel('Predicted Label')
plt.ylabel('True Label')
plt.title('Confusion Matrix - LSTM')
plt.show()

## SEL 8: INFERENCE (MENGGUNAKAN MODEL TERBAIK)

Bagian ini menunjukkan cara menggunakan model yang telah dilatih (dipilih yang terbaik, biasanya LSTM jika akurasinya tinggi) untuk memprediksi sentimen dari teks baru. -> **Memenuhi Saran ke-6: Melakukan Inference**.

In [None]:
# Pilih model yang akan digunakan untuk inference
# Biasanya model dengan performa terbaik di test set, misal LSTM
print("\n--- INFERENCE MENGGUNAKAN MODEL LSTM ---")

inference_model = lstm_model
inference_tokenizer = keras_tokenizer # Gunakan tokenizer yang SAMA saat training LSTM
inference_label_encoder = label_encoder # Gunakan encoder yang SAMA

def predict_sentiment(text):
    """Fungsi untuk memprediksi sentimen teks baru."""
    # 1. Cleaning teks input
    #    Penting: Gunakan fungsi clean_text yang sama persis dengan saat preprocessing!
    cleaned_text = clean_text(text)
    print(f"Teks setelah cleaning: '{cleaned_text}'") # Debugging
    if not cleaned_text:
        print("Teks kosong setelah cleaning, tidak dapat diprediksi.")
        # Beri nilai default atau raise error
        # Misalnya, kembalikan Netral atau label mayoritas
        default_pred_index = label_mapping.get('Netral', 0) # Index Netral atau 0
        default_prob = np.zeros(num_classes)
        default_prob[default_pred_index] = 1.0
        predicted_sentiment = inference_label_encoder.inverse_transform([default_pred_index])[0]
        return predicted_sentiment, default_prob

    # 2. Konversi ke sekuens
    sequence = inference_tokenizer.texts_to_sequences([cleaned_text])

    # 3. Padding sekuens
    padded_sequence = pad_sequences(sequence, maxlen=MAX_SEQUENCE_LENGTH, padding='post', truncating='post')

    # 4. Prediksi menggunakan model
    # Pastikan input shape sesuai dengan model.predict()
    # print(f"Shape input prediksi: {padded_sequence.shape}") # Debugging
    try:
        prediction_prob = inference_model.predict(padded_sequence, verbose=0)
    except Exception as e:
        print(f"Error saat prediksi: {e}")
        # Handle error, mungkin return default
        default_pred_index = label_mapping.get('Netral', 0)
        default_prob = np.zeros(num_classes)
        default_prob[default_pred_index] = 1.0
        predicted_sentiment = inference_label_encoder.inverse_transform([default_pred_index])[0]
        return predicted_sentiment, default_prob

    predicted_class_index = np.argmax(prediction_prob, axis=1)[0]

    # 5. Decode hasil prediksi ke label asli
    predicted_sentiment = inference_label_encoder.inverse_transform([predicted_class_index])[0]

    return predicted_sentiment, prediction_prob[0] # Kembalikan label dan probabilitasnya

# Contoh Penggunaan Inference
print("\nContoh Inference:")
contoh_ulasan = [
    "Aplikasinya bagus banget, mudah digunakan dan cepat! Suka sekali!",
    "Kecewa berat, sering error dan lemot sekali app nya. Buang2 kuota.",
    "Biasa aja sih, fiturnya standar tidak ada yang spesial. Ya lumayan.",
    "Update terbaru bikin aplikasi jadi aneh dan susah, tolong diperbaiki secepatnya.",
    "Lumayan lah buat belanja online kebutuhan sehari hari, pengiriman juga cepat top.",
    "Gak jelas banget aplikasi ini. Crash terus.",
    "Fitur search nya kurang akurat",
    "Terima kasih, sangat membantu!"
]

# Tampilkan hasil prediksi untuk setiap contoh
# !! PENTING: Output cell ini adalah BUKTI INFERENCE untuk submission !!
print("="*40)
for ulasan in contoh_ulasan:
    print(f"Ulasan Mentah: {ulasan}")
    prediksi, probabilitas = predict_sentiment(ulasan)
    print(f"Hasil Prediksi: {prediksi}")
    # Tampilkan probabilitas per kelas (opsional)
    prob_dict = {label: f"{prob:.4f}" for label, prob in zip(inference_label_encoder.classes_, probabilitas)}
    print(f"Probabilitas  : {prob_dict}")
    print("-"*40)


## SEL 9: KESIMPULAN & PEMENUHAN SYARAT

Meringkas hasil proyek dan memeriksa pemenuhan kriteria wajib serta saran untuk bintang 5.

In [None]:
print("\n--- KESIMPULAN PROYEK & PEMENUHAN SYARAT ---")

# Cek Kriteria Utama
print("\nKriteria Utama:")
print(f"1. Scraping data mandiri: {'Ya (Diasumsikan dari file CSV)'}")
print(f"   - Jumlah data (setelah cleaning): {len(df_cleaned)}")
min_data_ok = len(df_cleaned) >= 3000
print(f"   - Minimal 3000 sampel: {'Ya' if min_data_ok else 'TIDAK'}")

print(f"2. Ekstraksi Fitur & Pelabelan: Ya (TF-IDF, Sequence Padding; {num_classes} kelas sentimen)")
label_3_kelas_ok = num_classes >= 3
print(f"   - Minimal 3 kelas sentimen: {'Ya' if label_3_kelas_ok else 'TIDAK'}") # Juga bagian dari saran

print(f"3. Menggunakan Algoritma ML/DL: Ya (SVM, Random Forest, LSTM)")

# Cek akurasi minimal 85% untuk ketiga eksperimen
acc_svm_ok = accuracy_svm >= 0.85
acc_rf_ok = accuracy_rf >= 0.85
acc_lstm_ok = accuracy_lstm_test >= 0.85
semua_eksperimen_ok = acc_svm_ok and acc_rf_ok and acc_lstm_ok
print(f"4. Akurasi Testing Set >= 85% (minimal 3 skema): {'Ya' if semua_eksperimen_ok else 'TIDAK'}")
print(f"   - SVM (80/20): {accuracy_svm:.4f} ({'OK' if acc_svm_ok else 'NOK'})")
print(f"   - RF (70/30): {accuracy_rf:.4f} ({'OK' if acc_rf_ok else 'NOK'})")
print(f"   - LSTM (80/20): {accuracy_lstm_test:.4f} ({'OK' if acc_lstm_ok else 'NOK'})")

kriteria_utama_terpenuhi = min_data_ok and label_3_kelas_ok and semua_eksperimen_ok
print(f"\nStatus Kriteria Utama: {'TERPENUHI SEMUA' if kriteria_utama_terpenuhi else 'BELUM TERPENUHI SEMUA'}")

# Cek Saran untuk Nilai Tinggi
print("\nSaran untuk Nilai Tinggi (Bintang 5):")
saran_1_dl = True # Menggunakan LSTM
saran_2_acc92 = accuracy_lstm_train > 0.92 and accuracy_lstm_test > 0.92
saran_3_kelas3 = num_classes >= 3
saran_4_data10k = len(df_cleaned) >= 10000
saran_5_exp3 = True # Melakukan 3 eksperimen (SVM, RF, LSTM dg variasi)
saran_6_inference = True # Ada sel inference

print(f"1. Menggunakan Algoritma Deep Learning: {'Ya' if saran_1_dl else 'Tidak'}")
print(f"2. Akurasi Train & Test > 92% (untuk DL): {'Ya' if saran_2_acc92 else 'Belum Tercapai'}")
print(f"3. Dataset memiliki minimal 3 kelas: {'Ya' if saran_3_kelas3 else 'Tidak'}")
print(f"4. Jumlah data minimal 10.000 sampel: {'Ya' if saran_4_data10k else f'Belum ({len(df_cleaned)})'}")
print(f"5. Melakukan 3 percobaan skema pelatihan berbeda: {'Ya' if saran_5_exp3 else 'Tidak'}")
print(f"6. Melakukan inference dalam notebook: {'Ya' if saran_6_inference else 'Tidak'}")

semua_saran_terpenuhi = saran_1_dl and saran_2_acc92 and saran_3_kelas3 and saran_4_data10k and saran_5_exp3 and saran_6_inference
jumlah_saran_terpenuhi = sum([saran_1_dl, saran_2_acc92, saran_3_kelas3, saran_4_data10k, saran_5_exp3, saran_6_inference])

print(f"\nStatus Saran Nilai Tinggi:")
if semua_saran_terpenuhi:
    print("✅ SEMUA SARAN TERPENUHI - Potensi Bintang 5 (jika Kriteria Utama juga terpenuhi)")
elif jumlah_saran_terpenuhi >= 3:
    print(f"✅ {jumlah_saran_terpenuhi}/6 SARAN TERPENUHI - Potensi Bintang 4 (jika Kriteria Utama juga terpenuhi)")
else:
     print(f"⚠️ {jumlah_saran_terpenuhi}/6 SARAN TERPENUHI - Potensi Bintang 3 (jika Kriteria Utama juga terpenuhi)")

print("\nCatatan Akhir:")
print("- Hasil akurasi sangat bergantung pada kualitas data hasil scraping, proses cleaning, dan tuning hyperparameter.")
print("- Mungkin perlu penyesuaian (misalnya jumlah epoch, arsitektur model, parameter TfidfVectorizer) untuk mencapai target akurasi.")
print("- Pastikan semua file (notebook .ipynb yang sudah dijalankan, kode scraping .py/.ipynb, dataset .csv, requirements.txt) disertakan dalam satu file ZIP untuk submission.")