<a href="https://colab.research.google.com/github/saltfish259/Sentiment-Analyst-Dataset-From-Scrap-Data-Reviews-HoK-/blob/main/Analisis%20Sentiment%20(Positive%20dan%20Negative).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Import Libraries

Libraries ini digunakan untuk analisis teks, pemrosesan bahasa alami NLP, dan pembuatan model ML, untuk analisis sentiment dan klasifikasi teks.
1. `from google.colab import files`
- Mengimpor modul untuk menggunggah atau mengunduh file di lingkungan Google Colab.
2. `mport pandas as pd`
- Mengimpor Pandas, digunakan untuk manipulasi dan analisis data dalam bentuk tabel.
3. `import numpy as np`
- Library untuk operasi matematika dan manipulasi array.
4. `import re`
- Modul **Regular Expression (Regex)** untuk pencocokan pola teks.
5. `import nltk`
- `Natural Languange Toolkit (nltk)`. library pemrosesan bahasa alami.
6. `from nltk.corpus import stopwords`
- Mengimpor **stopwords** dari nltk, yaitu kata kata umum yang biasanya diabaikan dalam analisis teks (misal "the" dan "is").
7.` from nltk.stem import WordNetLemmatizer`
- Mengimpor **lemmatizer** dari nltk, digunakan untuk mereduksi kata ke bentuk dasar.
8. `from nltk.sentiment.vader import SentimentIntensityAnalyzer`
- **Vader** dari nltk, alat untuk menganalisis sentimen teks.
9. `import tensorflow as tf`
- Import **TensorFlow**, library deep learning untuk membangun dan melatih model.
10.`from tensorflow.keras.preprocessing.text import Tokenizer`
- **Tokenizer** dari keras untuk memproses teks menjadi token.
11.`from tensorflow.keras.preprocessing.sequence import pad_sequences`
- Fungsi untuk melakukan **padding** pad aurutan teks agar memiliki panjang yang sama.
12.`from tensorflow.keras.models import Sequential `
- Sequential model dari keras, model deep learning yang terdiri dari lapisan berurutan.
13.`from tensorflow.keras.layers import Conv1D, MaxPooling1D, GlobalMaxPooling1D, Embedding, Dense, Dropout`
- `Conv1D`, Lapisan konvolusi 1D untuk menganalisis urutan teks.
- `MaxPooling1D`, Lapisan pooling untuk mengurangi dimensi data.
- `Embedding`, Lapisan pooling global.
- `Dense`, Lapisan fully connected.
- `Dropout`, Lapisan untuk mencegah overfitting.
14.`from tensorflow.keras.callbacks import EarlyStopping`
- EarlyStopping, yang menghentikan pelatihan jika model tidak menunjukkan peningkatan untuk menghindari overfitting.
15.`from sklearn.model_selection import train_test_split`
- Mengimpor fungsi untuk membagi dataset menjadi **training** dan **testing set**.
16.`from sklearn.preprocessing import LabelEncoder`
- **LabelEncoder** untuk mengonversi label kategori menjadi numerik.

In [None]:
from google.colab import files
import pandas as pd
import numpy as np
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.sentiment.vader import SentimentIntensityAnalyzer
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv1D, MaxPooling1D, GlobalMaxPooling1D, Embedding, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

Kode ini mengunduh sumber daya penting dari NLTK yang diperlukan untuk pemrosesan bahasa alami, termasuk analisis sentimen, penghapusan stopwords, tokenisasi, dan lemmatization.
1. `nltk.download('vader_lexicon')`
- Mengunduh **Vader lexicon**, digunakan oleh Sentiment Intensity Analyzer untuk analisis sentiment teks.
2. `nltk.download('stopwords')`
- Mengunduh daftar **stopwords**, yaitu kata-kata umum yang biasanya diabaikan dalam pemrosesan teks, seperti "the", "is", dan "and".
3. `nltk.download('punkt')`
- **Punkt tokenizer**, digunakan untuk membagi teks menjadi kalimat dna kata.
4. `nltk.download('wordnet')`
- **Wordnet**, sebuah basis data leksikal yang berisi sinonim, anatonim, dan hubungan kata, digunakan untuk lemmatization.


In [None]:
# Download NLTK resources
nltk.download('vader_lexicon')
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package vader_lexicon to /root/nltk_data...
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

## Load and Preprocess Data

In [None]:
# Upload dan load dataset
upload = files.upload()  # Unggah file dari lokal
df = pd.read_csv('HoK_Review.csv')  # Load data review

Saving HoK_Review.csv to HoK_Review (1).csv


In [None]:
# Tampilkan 5 baris pertama untuk memastikan data telah dimuat dengan benar
df.head()

Unnamed: 0,Review
0,"Game asu, perbaiki match makingnya"
1,Hey Tencent you better hear me out I found man...
2,Much worse
3,Don't play this game. This game are suck with ...
4,You suck.


In [None]:
# Hitung dan hapus review yang duplikat
df.duplicated().sum()  # Cek jumlah duplikat
df = df.drop_duplicates()  # Hapus duplikat

In [None]:
# Tampilkan informasi umum tentang dataset setelah penghapusan duplikat
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7737 entries, 0 to 9999
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Review  7736 non-null   object
dtypes: object(1)
memory usage: 120.9+ KB


## Data Cleaning

Kode ini menyiapkan alat untuk lemmatization dan mengumpulkan stopwords dalam bahsa inggris untuk digunakan dalam pemrosesan teks selanjutnya.
1. `lemmatizer = WordNetLemmatizer()`
- Membuat objek **lemmatizer** dari kelas WordNetLemmatizer, yangdigunakan untuk mereduksi kata - kata ke bentuk dasar mereka.
2. `stop_words = set(stopwords.words('english'))`
- Mengambil daftar **stopwords** dalam bahasa inggris dari NLTK dan mengubahnya menjadi set untuk meningkatkan efisiensi pencarian dan pengecekan, yang akan digunakan untuk menghapus kata - kat aumum dari teks saat analisis.

In [None]:
# Inisialisasi lemmatizer dan stopwords
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('english'))

Fungsi ini membersihkan teks dengan menghapus karakter yang tidak perlu, mengubah menjadi kecil, menghapus stopwords, dan mereduksi kata -kata ke bentuk dasarnya, sehingga siap untuk analisis lebih lanjut.
1. `if not isinstance(text, str): text = str(text)`
- Memeriksa apakah texs adalah tipe string. jika tidak, mengonversinya menjadi string.
2. `text = re.sub(r'[^\x00-\x7F]+', ' ', text)`
- Menghapus karakter non-ASCII, seperti emotikon dan simbol, dari teks.
3. `text = text.lower()`
- Mengubah semua huruf dalam teks menjadi huruf kecil untuk konsistensi.
4. `text = re.sub(r'[^\w\s]', '', text)`
- Menghapus tanda baca dan karakter non-alphanumeric lainnya, termasuk simbol.
5. `text = re.sub(r'\d+', '', text)`
- menghapus semua angka dari teks.
6. `text = ' '.join(word for word in text.split() if word not in stop_words)`
- Menghapus kata - kata umum (stopwords) dari teks dengan memfilter kata yang ada.
7. `text = ' '.join(lemmatizer.lemmatize(word) for word in text.split())`
- Melakukan lemmatization pada setiap kata yang tersisa, mengubah kata ke bentuk dasarnya.
8. `return text`
- Mengembalikan teks yang telah dibersihkan.


In [None]:
# Fungsi untuk membersihkan teks
def clean_text(text):
    # Handle non-string values
    if not isinstance(text, str):
        text = str(text)  # Convert to string if not already

    text = re.sub(r'[^\x00-\x7F]+', ' ', text)  # Menghapus emotikon dan simbol
    text = text.lower()  # Mengubah teks ke huruf kecil
    text = re.sub(r'[^\w\s]', '', text)  # Menghapus tanda baca dan angka
    text = re.sub(r'\d+', '', text)  # Menghapus angka
    text = ' '.join(word for word in text.split() if word not in stop_words)  # Menghapus stopwords
    text = ' '.join(lemmatizer.lemmatize(word) for word in text.split())  # Lemmatization
    return text

In [None]:
# Terapkan fungsi clean_text pada kolom 'Review' dan simpan hasilnya di kolom baru 'Cleaned_Review'
df['Cleaned_Review'] = df['Review'].apply(clean_text)

## Sentiment Analyst

Kode ini mempersipkan alat untuk melakukan analisis sentimen pada teks, memungkinkan pengukuran emosi secara otomatis.
1. `analyzer = SentimentIntensityAnalyzer()`
- Membuat objek **sentimentIntensityAnalyzer** dari pustaka NLTK, yang digunakan untuk menganalisis sentimen teks. Objek ini dapat memberikan skor sentimen yang mencakup nilai positif, negatif, dan netral. yang membantu dalam menilai emosi yang terkandung dalam teks.

In [None]:
# Inisialisasi analyzer VADER
analyzer = SentimentIntensityAnalyzer()

Fungsi mengklasifikasi sentimen ulasan sebagai Positif atau Negative berdasar analisis skor yang dihitung oleh VADER.
1. `score = analyzer.polarity_scores(review)`
- Menghitung skor sentimen untuk ulasan yang diberikan menggunakan objek analyzer, menghasilkan dictionary yang berisi skor **positif** dan **negatif**.
2. `if score['compound'] >= 0.0:`
- Memeriksa nilai skor komposit. Jika nilainya sama dengan atau lebih besar dari 0.0, ulasan dianggap sebagai **Positive**.
3. `return 'Positive'`
- Mengembalikan string '**Positive**' Jika skor komposit memenuhi kriteria.
4. `else:`
- Jika skor komposit dibawah 0.0, maka ulasan dianggap sebagai **Negative**.
5. `return 'Negative'`
- Mengembalikan string '**Negative**' jika skor komposit tidak memenuhi kriteria untuk **positif**.


In [None]:
# Fungsi untuk mengklasifikasikan sentimen berdasarkan skor VADER (hanya Positive dan Negative)
def kelas_sentimen(review):
    score = analyzer.polarity_scores(review)
    if score['compound'] >= 0.0:  # Anggap semua nilai di atas atau sama dengan 0.0 sebagai Positive
        return 'Positive'
    else:  # Anggap semua nilai di bawah 0.0 sebagai Negative
        return 'Negative'

In [None]:
# Terapkan fungsi klasifikasi sentimen pada kolom 'Cleaned_Review'
df['Sentiment'] = df['Cleaned_Review'].apply(kelas_sentimen)

In [None]:
# Simpan hasil sentiment analysis ke dalam file CSV
df.to_csv('review_sentiment.csv', index=False, encoding='utf-8')

## Prepare Data For Model

In [None]:
# Load kembali data yang telah diklasifikasikan
df = pd.read_csv('review_sentiment.csv')

In [None]:
# Tampilkan 5 baris pertama untuk memastikan data telah dimuat dengan benar
df.head()

Unnamed: 0,Review,Cleaned_Review,Sentiment
0,"Game asu, perbaiki match makingnya",game asu perbaiki match makingnya,Positive
1,Hey Tencent you better hear me out I found man...,hey tencent better hear found many player inte...,Positive
2,Much worse,much worse,Negative
3,Don't play this game. This game are suck with ...,dont play game game suck fckng bot bye duh,Negative
4,You suck.,suck,Negative


In [None]:
# Hapus baris dengan nilai NaN di kolom 'Cleaned_Review'
df.dropna(subset=['Cleaned_Review'], inplace=True)

Kode ini mengonversi label sentimen dalam DataFrame menjadi format numerik, mempersiapkannya untuk digunakan dalam analisis atau model ML.
1. `label_encoder = LabelEncoder()`
- Membuat objel **LabelEncoder** dari pustaka **scikit-learn**, yang digunakan untuk mengonversi label kategori (dalam hal ini, sentimen) menjadi format numerik.
2. `df['Sentiment'] = label_encoder.fit_transform(df['Sentiment'])`
- Menggunakan `metode fit_transform` dari objek `label_encoder` untuk mengonver kolom `Sentiment` dalam DataFrame `df` menjadi nilai numerik. Label yang sebelumnya berbentuk string (misalnya, "Positive" dan "Negative") akan diubah menjadi angka (misal, 0 dan 1)

In [None]:
# Encode label sentimen menjadi angka
label_encoder = LabelEncoder()
df['Sentiment'] = label_encoder.fit_transform(df['Sentiment'])

Kode ini membagi dataset menjadi data pelatihan (80%) dan data pengujian (20%) untuk analisis sentimen, memungkikan model untuk dilatih dan diuji secara terpisah.
1. `X_train, X_test, y_train, y_test = train_test_split(...)`
- Memanggil fungsi `train_test_split` dari pustaka scikit_learn untuk membagi dataset menjadi set pelatihan dan set pengujian.
2. `df['Cleaned_Review']`
- Menyediakan kolom `Cleaned_Review` dari DataFrame `df` sebagai data fitur (X) yang akan digunakan untuk pelatihan dan pengujian model.
3. `df['Sentiment']`
- Menyediakan kolom `Sentiment` sebagai label target (y) yang ingin diprediksi.
4. `test_size=0.2`
- Menentukan bahwa 20% dari data akan digunakan sebagai set pengujian, sementara 80% sisanya digunakan sebagai set pelatihan.
5. `random_state=42`
- Mengatur nilai seed untuk memastikan pembagian data yang konsisten setiap kali kode dijalankan.

In [None]:
# Split dataset menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(df['Cleaned_Review'], df['Sentiment'], test_size=0.2, random_state=42)

## Tokenization and Padding

Kode ini menyiapkan Tokenizer untuk memproses data teks dengan membatasi jumlah kata yang digunakan dan mempelajari frekuensi kata dari data pelatihan.
1. `tokenizer = Tokenizer(num_words=5000)`
- Membuat objek Tokenizer dari keras dengan parameter `num_words=5000`, yang berarti hanya 5.000 kata paling umum dari dataset yang akan di pertimbangkan dlam pemrosesan teks.
2. `tokenizer.fit_on_texts(X_train)`
- Menggunakan metode `fit_on_texts` untuk mempelajari dan menghitung frekuensi kata dari data teks dalam `X_train`. Tokenizer akan membuat kamus kata yang akan digunakan untukmengonversi teks menjadi urutan angka berdasarkan frekuensi kemunculan kata.

In [None]:
# Tokenisasi teks
tokenizer = Tokenizer(num_words=5000)
tokenizer.fit_on_texts(X_train)

Kode ini mengubah data teks menjadi urutan angka, memungkikan model ML untuk memproses dan menganalisis teks dengan cara yang dapat dimengerti oleh algoritma.
1.
`X_train_seq = tokenizer.texts_to_sequences(X_train)`
- Menggunakan metode `texts_to_sequence` dari objek `tokenizer` untuk mengonversi setiap teks dalam `X_train` menjadi urutan angka berdasarkan kamus kata yang telah dibuat sebelumnya. Setiap kata dalam teks akan digantikan dengan indeks numeriknya.
2. `X_test_seq = tokenizer.texts_to_sequences(X_test)`
- Melakukan hal yang sama seperti pada langkah sebelumnya, tapi untk data `X_test`, mengonversi teks dalam `X_test` menjadi urutan angka.

In [None]:
# Konversi teks menjadi sequences
X_train_seq = tokenizer.texts_to_sequences(X_train)
X_test_seq = tokenizer.texts_to_sequences(X_test)

Kode ini menstandardisasi panjang urutan teks menjadi 100, sehingga memudhakan pemrosesan dalam model ML dan memastikan bahwa semua input memiliki dimensi yang konsisten.
1. `max_length = 100`
- Menentukan panjang maksimum untuk urutan teks. Dalam hal ini, setiap urutan akan di pangkas atau diisi (padding) agar memiliki panjang 100.
2. `X_train_pad = pad_sequences(X_train_seq, maxlen=max_length)`
- Menggunakan fungsi `pad_sequence` dari keras untuk menyesuaikan semua urutan dalam `X_train_seq` menjadi panjang maksimum yang ditentukan (100). jika urutan kurang dari 100, akan ditambahkan padding (biasanya dengan angka 0) diawal. Jika lebih dari 100, urutan akan dipangkas.
3. `X_test_pad = pad_sequences(X_test_seq, maxlen=max_length)`
- Melakukan hal yang sama pada urutan dalam `X_test_seq` untuk memastikan bahwa data pengujian juga memiliki panjang yang sama.


In [None]:
# Padding sequences agar memiliki panjang yang sama
max_length = 100
X_train_pad = pad_sequences(X_train_seq, maxlen=max_length)
X_test_pad = pad_sequences(X_test_seq, maxlen=max_length)

## Build and Train Model

Kode ini mendefinisikan model CNN untuk analisis sentimen, menggabungkan lapisan embedding, konvolusi, pooling, dan fully connected untuk mengklasifikasi teks menjadi dua kelas.
1. `model = Sequential()`
- Membuat objek Sequential untuk membangun model secara bertahap dengan menambahkan lapisan - lapisan.
2. `model.add(Embedding(input_dim=5000, output_dim=64, input_length=max_length))`
- Menambahkan lapisan Embedding, yang mengonversi kata - kata menjadi vektor berdimensi 64. input_dim=5000 menunjukkan bahwa hanya 5.000 kata yang akan digunakan, dan input_length=max_length memastikan bahwa semua input memiliki panjang yang sama.
3. `model.add(Conv1D(filters=128, kernel_size=5, activation='relu'))`
- Menambahkan lapisan Convolutional 1D dengan 128 filter dan ukuran kernel 5. Fungsi aktivasi ReLU digunakan untuk menambahkan non-linearitas ke model.
4. `model.add(MaxPooling1D(pool_size=2))`
- Menambahkan lapisan Max Pooling 1D untuk mengurangi dimensi output dari lapisan konvolusi, dengan ukuran 2.
5. `model.add(Conv1D(filters=128, kernel_size=5, activation='relu'))`
- Menambahkan lapisan konvolusi 1D lagi dengan 128 filter dan ukuran kernel 5 untuk menangkap fitur tambahan.
6. `model.add(MaxPooling1D(pool_size=2))`
- Menambahkan lapisan pooling lagi untuk mengurangi dimensi lebih lanjut
7. `model.add(GlobalMaxPooling1D())`
- Menambahkan lapisan Global Max Pooling 1D, yang mengambil nilai maksimum dari setiap fitur, mengurangi dimensi output menjadi lebih sederhana.
8. `model.add(Dropout(0.5))`
- Menambahkan lapisan Dropout dengan tingkat dropout 50% untuk mencegah overfitting dengan secara acak menonaktifkan 50% neuron saat pelatihan.
9. `model.add(Dense(2, activation='softmax'))`
- Menambahkan lapisan Dense dengan 2 neuron (untuk dua kelas: Positive dan Negative) dan fungsi aktivasi softmax untuk menghasilkan distribusi probabilitas dari kelas yang diprediksi.

In [None]:
# Membuat model CNN
model = Sequential()
model.add(Embedding(input_dim=5000, output_dim=64, input_length=max_length))
model.add(Conv1D(filters=128, kernel_size=5, activation='relu'))
model.add(MaxPooling1D(pool_size=2))
model.add(Conv1D(filters=128, kernel_size=5, activation='relu'))
model.add(MaxPooling1D(pool_size=2))
model.add(GlobalMaxPooling1D())
model.add(Dropout(0.5))
model.add(Dense(2, activation='softmax'))



Kode ini mengkonfigurasi model dengan fuangsi kerugian, optimasi, dan metrik yang sesuai untuk pelatihan, mempersiapkan model untuk proses belajar dari data.
1. `model.compile(...)`
- Menyiapkan model untuk pelatihan.
2. `loss='sparse_categorical_crossentropy'`
- Menentukan fungsi kerugian yang digunakan untuk mengukur seberapa baik model dalam memprediksi kelas yang benar. sparse_categorical_crossentropy digunakan ketika label target berupa integer (misalnya, 0 untuk "Negative" dan 1 untuk "Positive")
3. `optimizer='adam'`
- Menggunakan algoritma optimasi Adam, yang merupakan metode adaptif untuk pembaruan bobot yang efektif dalam banyak kasus.
4. `metrics=['accuracy']`
- Menentukan metrik yang akan dipantau selama pelatihan dan pengujian model. Dalam hal ini, model akan memantau akurasi sebagai ukuran kinerja.

In [None]:
# Compile model dengan loss dan optimizer yang sesuai
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

Kode ini menyiapkan Callback Early Stopping untuk mencegah perlatihan yang tidak perlu jika model tidak menunjukan perbaikan dalam kinerja, sekaligus memastikan bahwa bobot terbaik disimpan.
1. `early_stopping = EarlyStopping(...)`
- Membuat objek EarlyStopping dari Keras, yang digunakan untuk mengehentikan model lebih awal jika tidak ada perbaikan yang signifikan dalam fungsi loss pada data validasi.
2. `monitor='val_loss'`
- Menentukan bahwa pelatihan akan dipantau berdasarkan nilai fungsi loss pada data validasi (`val_loss`).
3. `patience=3`
- Mengatur jumlah epoch yang akan dilalui tanpa perbaikan sebelum pelatihan dihentikan. Dalam hal ini, jika `val_loss` tidakmembaik selama 3 epoch berturut - turut, pelatihan akan dihentikan.
4. `restore_best_weights=True`
- Menentukan bahwa bobot model terbaik (yang miliki `val_loss` terendah) akan dipulihkan setelah penghentian awal, sehinggga model yang dilatih adalah versi terbaiknya.

In [None]:
# Early stopping callback untuk menghentikan pelatihan jika tidak ada peningkatan pada val_loss
early_stopping = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)

Kode ini melatih model dengan data yang telah di siapkan selam 10 epoch, menggunakan batch size 32, dan memantau kinerja mode pada data validasi dengan callback early stopping untuk efisiensi pelatihan.
1. `history = model.fit(...)`
- Memulai proses pelatihan menggunakan data pelatihan yang telah disiapkan.
2. `X_train_pad`
- Data fitur yang telah diproses (dalam bentuk urutan yang telah diisi) untuk pelatihan.
3. `y_train`
- label target (sentimen) yang sesuai dengan data fitur untuk pelatihan.
4. `epochs=10`
- Menentukan jumlah total iterasi pelatihan model di atas seluruh dataset. Dalam hal ini model akan di latih selama 10 epoch.
5. `batch_size=32`
- Mengatur ukuran batch, model akan diperbarui setelah setiap 32 contoh data.
6. `validation_split=0.1`
- Mengalokasikan 10% dari data pelatihan untuk digunakan sebagai validasi selama pelatihan, untuk memantau kinerja model pada data yang tidak terlihat.
7. `callbacks=[early_stopping]`
- Menyertakan callback early_stopping, yang akan menghentikan pelatihan lebih awal jika tidak ada perbaikan dalam fungsi loss pada data validasi.

In [None]:
# Train the model
history = model.fit(X_train_pad, y_train,
                            epochs=10,
                            batch_size=32,
                            validation_split=0.1,
                            callbacks=[early_stopping])

Epoch 1/10
[1m170/170[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 28ms/step - accuracy: 0.7903 - loss: 0.4872 - val_accuracy: 0.8709 - val_loss: 0.3207
Epoch 2/10
[1m170/170[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - accuracy: 0.9156 - loss: 0.2221 - val_accuracy: 0.8957 - val_loss: 0.2557
Epoch 3/10
[1m170/170[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - accuracy: 0.9700 - loss: 0.0984 - val_accuracy: 0.9089 - val_loss: 0.2695
Epoch 4/10
[1m170/170[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.9802 - loss: 0.0630 - val_accuracy: 0.8891 - val_loss: 0.3420
Epoch 5/10
[1m170/170[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.9910 - loss: 0.0331 - val_accuracy: 0.8907 - val_loss: 0.4090


## Test Model

Kode ini melakukan prediksi sentiment untuk teks ulasan yang diberikan, mengonversinya menjadi format yang dapat diproses oleh model, dan mengembalikan hasil sentimen dalam bentuk label asli.
1. `seq = tokenizer.texts_to_sequences([review])`
- Mengonvesi teks ulasan yang diberikan menjadi urutan angka menggunakan tokenizer. ulasan dimasukkan dalam bentuk list agar metode dapat memprosesnya.
2. `padded = pad_sequences(seq, maxlen=max_length)`
- Menggunakan `pad_sequences` untuk memastikan bahwa urutan angka memiliki panjang yang konsisten dengan `max_length` yang telah ditentukan. ini memungkikan mode untuk meneripa input yang ukuran yang sesuai.
3. `pred = model.predict(padded)`
- Menggunakan model yang telah dilatih untuk memprediksi sentiment dari urutan yang telah diproses (dalam bentuk padded).
4. `sentiment = label_encoder.inverse_transform([np.argmax(pred)])`
- Mengambil indeks kelas dengan probabilitas tertinggi dari hasil prediksi menggunakan `np.argmax(pred)` dan mengonversinya kembali ke label asli (misalnya, "positive" atau "negative") menggunakan `label_encoder`.
5. `return sentiment[0]`
- Mengembalikan label sentiment yang telah di prediksi menjadi output fungsi.

In [None]:
# Fungsi untuk memprediksi sentimen dari review baru
def predict_sentiment(review):
    seq = tokenizer.texts_to_sequences([review])
    padded = pad_sequences(seq, maxlen=max_length)
    pred = model.predict(padded)
    sentiment = label_encoder.inverse_transform([np.argmax(pred)])
    return sentiment[0]

In [None]:
# Test dengan kalimat baru
new_review = "I absolutely loved this game! The graphics are stunning, and the gameplay is so engaging. It kept me entertained for hours. Highly recommended!"
print(f'Sentiment: {predict_sentiment(new_review)}')

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 405ms/step
Sentiment: Positive


In [None]:
# Test dengan kalimat baru (Negatif)
new_review = "This game is really disappointing. The graphics are poor, and the gameplay is frustrating. It was a waste of time and not enjoyable at all."
print(f'Sentiment: {predict_sentiment(new_review)}')

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 17ms/step
Sentiment: Negative
