<a href="https://colab.research.google.com/github/ryu45-hu/emotion_detection/blob/main/model_emotion_detection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import tensorflow as tf
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import pickle

# --- 1. Persiapan Data Sederhana ---
# Kita akan membuat dataset kecil langsung di kode untuk kesederhanaan.
# 0: Negatif, 1: Netral, 2: Positif
kalimat = [
    'saya benci dengan pelayanan yang buruk ini',
    'filmnya sangat membosankan dan jelek',
    'aku sangat kecewa dengan produknya',
    'jangan beli di toko itu, penipu',
    'makanannya tidak enak sama sekali',
    'ini adalah sebuah buku',
    'mobil itu berwarna merah',
    'jadwal kereta akan tiba nanti sore',
    'cuaca hari ini terlihat cerah',
    'laptop saya sedang diperbaiki',
    'saya sangat senang dengan hasilnya',
    'wah, pemandangannya indah sekali!',
    'pelayanannya sangat ramah dan memuaskan',
    'ini adalah hari terbaik dalam hidupku',
    'makanannya luar biasa lezat!'
]

label = np.array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2])

# --- 2. Tokenisasi dan Padding ---
# Mengubah teks menjadi angka agar bisa diproses model

# Parameter untuk tokenizer dan padding
vocab_size = 1000  # Ukuran kosakata
embedding_dim = 16 # Dimensi vektor untuk setiap kata
max_length = 20    # Panjang maksimum setiap kalimat
trunc_type='post'  # Potong kalimat yang terlalu panjang di akhir
padding_type='post'# Tambahkan padding di akhir kalimat yang pendek
oov_tok = "<OOV>"  # Token untuk kata yang tidak ada di kosakata

# Membuat tokenizer
tokenizer = Tokenizer(num_words=vocab_size, oov_token=oov_tok)
tokenizer.fit_on_texts(kalimat)

word_index = tokenizer.word_index

# Mengubah kalimat menjadi urutan angka (sequences)
sequences = tokenizer.texts_to_sequences(kalimat)

# Melakukan padding pada sequences
padded = pad_sequences(sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)

# --- 3. Membangun Model Neural Network ---
model = tf.keras.Sequential([
    # Layer Embedding untuk mengubah angka menjadi vektor padat
    tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length=max_length),
    # Meratakan output dari layer embedding
    tf.keras.layers.GlobalAveragePooling1D(),
    # Layer Dense dengan aktivasi ReLU
    tf.keras.layers.Dense(24, activation='relu'),
    # Layer output dengan 3 neuron (Negatif, Netral, Positif) dan aktivasi softmax
    tf.keras.layers.Dense(3, activation='softmax')
])

# Kompilasi model
model.compile(loss='sparse_categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

model.summary()

# --- 4. Melatih Model ---
num_epochs = 100
history = model.fit(padded, label, epochs=num_epochs, verbose=2)

print("\n--- Pelatihan Selesai ---")

# --- 5. Menyimpan Model dan Tokenizer ---
# Ini adalah bagian terpenting. File-file ini akan kita gunakan di aplikasi Streamlit.

# Menyimpan model dalam format HDF5
model.save("model_emosi.h5")
print("Model telah disimpan sebagai model_emosi.h5")

# Menyimpan tokenizer menggunakan pickle
with open('tokenizer.pickle', 'wb') as handle:
    pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)
print("Tokenizer telah disimpan sebagai tokenizer.pickle")

print("\n--- Proses Selesai ---")
print("Silakan unduh file 'model_emosi.h5' dan 'tokenizer.pickle' dari Colab.")





Epoch 1/100
1/1 - 2s - 2s/step - accuracy: 0.3333 - loss: 1.0990
Epoch 2/100
1/1 - 0s - 145ms/step - accuracy: 0.3333 - loss: 1.0986
Epoch 3/100
1/1 - 0s - 66ms/step - accuracy: 0.4000 - loss: 1.0981
Epoch 4/100
1/1 - 0s - 73ms/step - accuracy: 0.4000 - loss: 1.0974
Epoch 5/100
1/1 - 0s - 140ms/step - accuracy: 0.4000 - loss: 1.0970
Epoch 6/100
1/1 - 0s - 53ms/step - accuracy: 0.4000 - loss: 1.0966
Epoch 7/100
1/1 - 0s - 62ms/step - accuracy: 0.4667 - loss: 1.0962
Epoch 8/100
1/1 - 0s - 56ms/step - accuracy: 0.5333 - loss: 1.0957
Epoch 9/100
1/1 - 0s - 54ms/step - accuracy: 0.6667 - loss: 1.0952
Epoch 10/100
1/1 - 0s - 72ms/step - accuracy: 0.8667 - loss: 1.0948
Epoch 11/100
1/1 - 0s - 58ms/step - accuracy: 1.0000 - loss: 1.0943
Epoch 12/100
1/1 - 0s - 57ms/step - accuracy: 0.8667 - loss: 1.0938
Epoch 13/100
1/1 - 0s - 59ms/step - accuracy: 0.8667 - loss: 1.0933
Epoch 14/100
1/1 - 0s - 58ms/step - accuracy: 0.8000 - loss: 1.0928
Epoch 15/100
1/1 - 0s - 59ms/step - accuracy: 0.8000 - lo




--- Pelatihan Selesai ---
Model telah disimpan sebagai model_emosi.h5
Tokenizer telah disimpan sebagai tokenizer.pickle

--- Proses Selesai ---
Silakan unduh file 'model_emosi.h5' dan 'tokenizer.pickle' dari Colab.
