<a href="https://colab.research.google.com/github/gabrielhozana/Sentiment-Analysis-Using-Dataset-Yelp/blob/main/Sentiment_Analysis_Using_Dataset_Yelp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Sebelum masuk ke dataset Yelp.
Perlu diingat bahwa kita harus mengkorversi kata-kata menjadi angka.

Proses mengonversi kata-kata ke dalam bilangan numerik dapat kita sebut juga sebagai tokenisasi. Setelah melakukan tokenisasi pada teks, hal selanjutnya adalah mengubah setiap kalimat dalam teks kita ke dalam sequence.

Sebuah sekuens adalah sebuah larik yang berisi kumpulan token sesuai dengan setiap kata pada sebuah kalimat dalam teks.



# Latihan

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words= 15, oov_token='-')

Jika parameter num_words diisi 15, maka hanya 15 huruf yang paling sering muncul akan ditokenisasi dari seluruh kata pada dataset. 

Sedangkan parameter oov_token adalah parameter yang berfungsi untuk mengganti kata-kata yang tidak ditokenisasi menjadi karakter tertentu. 

Pada praktiknya, lebih baik untuk mengganti kata yang tidak dikenali dengan suatu kata tertentu dibanding melewatkan kata tersebut untuk mengurangi informasi yang hilang.

In [2]:
teks = ['Saya suka programming',
        'Programming sangat menyenangkan!',
        'Machine Learning berbeda dengan pemrograman konvensional']

In [3]:
#tokenisasi menggunakan fungsi fit_on_texts
tokenizer.fit_on_texts(teks)

In [5]:
sequences = tokenizer.texts_to_sequences(teks)

In [6]:
# Untuk melihat hasil tokenisasi, kita bisa memanggil atribut word_index dari objek tokenizer
print(tokenizer.word_index)

{'-': 1, 'programming': 2, 'saya': 3, 'suka': 4, 'sangat': 5, 'menyenangkan': 6, 'machine': 7, 'learning': 8, 'berbeda': 9, 'dengan': 10, 'pemrograman': 11, 'konvensional': 12}


Contoh OOV seperti di atas. Kata ‘belajar’, ‘sejak’, dan ‘SMP’ tidak ada memiliki token pada dictionary hasil tokenisasi. Tanpa OOV, sequence yang dihasilkan akan seperti output pada baris pertama di mana, kata yang tidak memiliki token tidak dimasukkan pada sequence. Jika kita menggunakan OOV, maka setiap kata yang tidak memiliki token akan diberikan token yang seragam. Dengan OOV, informasi urutan setiap kata pada kalimat tidak hilang.

Ketika sequence telah dibuat, hal yang perlu kita lakukan adalah padding. Yup, padding adalah proses untuk membuat setiap kalimat pada teks memiliki panjang yang seragam. Sama seperti melakukan resize gambar, agar resolusi setiap gambar sama besar. Untuk menggunakan padding impor library pad_sequence. Kemudian buat panggil fungsi pad_sequence() dan masukkan sequence hasil tokenisasi sebagai parameternya.

In [8]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
sequences_samapanjang = pad_sequences(sequences)

In [9]:
print(sequences_samapanjang)

[[ 0  0  0  3  4  2]
 [ 0  0  0  2  5  6]
 [ 7  8  9 10 11 12]]


Padding dapat melakukan ini dengan menambahkan 0 secara default pada awal sequence yang lebih pendek

Jika kita ingin merubah sehingga 0 ditambahkan di akhir sequence, kita dapat menggunakan parameter padding dengan nilai ‘post’. Selain itu kita dapat mengatur berapa maksimum panjang setiap sequence dengan parameter maxlen dan nilai yang kita inginkan. Jika kita mengisi nilai 5, maka panjang sebuah sequence tidak akan melebihi 5. 

Jika teks kita memiliki panjang lebih dari nilai parameter maxlen misalnya 5, maka secara default nilai dari sequence akan diambil 5 nilai terakhir atau 5 kata terakhir saja dari setiap kalimat. Untuk mengubah pengaturan ini dan mengambil 5 kata terakhir dari tiap kalimat, kita dapat menggunakan parameter truncating dan mengisi nilai ‘post’.

In [11]:
sequences_samapanjang = pad_sequences(sequences,
                                      padding='post',
                                      maxlen=5,
                                      truncating='post')
print(sequences_samapanjang)

[[ 3  4  2  0  0]
 [ 2  5  6  0  0]
 [ 7  8  9 10 11]]


# Dataset Yelp

In [12]:
!pip install kaggle
# https://colab.research.google.com/github/corrieann/kaggle/blob/master/kaggle_api_in_colab.ipynb#scrollTo=hMY4CFezjcG-
from google.colab import files

uploaded = files.upload()

for fn in uploaded.keys():
  print('User uploaded file "{name}" with length {length} bytes'.format(
      name=fn, length=len(uploaded[fn])))
  
# Then move kaggle.json into the folder where the API expects to find it.
!mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kaggle/kaggle.json



Saving kaggle.json to kaggle.json
User uploaded file "kaggle.json" with length 69 bytes


In [13]:
!kaggle datasets download -d marklvl/sentiment-labelled-sentences-data-set

Downloading sentiment-labelled-sentences-data-set.zip to /content
  0% 0.00/326k [00:00<?, ?B/s]
100% 326k/326k [00:00<00:00, 48.6MB/s]


In [15]:
!unzip sentiment-labelled-sentences-data-set.zip

Archive:  sentiment-labelled-sentences-data-set.zip
  inflating: sentiment labelled sentences/amazon_cells_labelled.csv  
  inflating: sentiment labelled sentences/amazon_cells_labelled.txt  
  inflating: sentiment labelled sentences/imdb_labelled.csv  
  inflating: sentiment labelled sentences/imdb_labelled.txt  
  inflating: sentiment labelled sentences/readme.txt  
  inflating: sentiment labelled sentences/sentiment labelled sentences/amazon_cells_labelled.csv  
  inflating: sentiment labelled sentences/sentiment labelled sentences/amazon_cells_labelled.txt  
  inflating: sentiment labelled sentences/sentiment labelled sentences/imdb_labelled.csv  
  inflating: sentiment labelled sentences/sentiment labelled sentences/imdb_labelled.txt  
  inflating: sentiment labelled sentences/sentiment labelled sentences/readme.txt  
  inflating: sentiment labelled sentences/sentiment labelled sentences/yelp_labelled.csv  
  inflating: sentiment labelled sentences/sentiment labelled sentences/yel

In [17]:
import pandas as pd
df = pd.read_csv('/content/sentiment labelled sentences/yelp_labelled.txt', names=['sentence', 'label'], sep='\t')

In [18]:
df.tail()

Unnamed: 0,sentence,label
995,I think food should have flavor and texture an...,0
996,Appetite instantly gone.,0
997,Overall I was not impressed and would not go b...,0
998,"The whole experience was underwhelming, and I ...",0
999,"Then, as if I hadn't wasted enough of my life ...",0


In [19]:
from sklearn.model_selection import train_test_split
kalimat = df['sentence'].values
y = df['label'].values
kalimat_latih, kalimat_test, y_latih, y_test = train_test_split(kalimat, y, test_size=0.2)

In [20]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

#tokenisasi     
tokenizer = Tokenizer(num_words=250, oov_token='x')
tokenizer.fit_on_texts(kalimat_latih) 
tokenizer.fit_on_texts(kalimat_test)

#sekuens
sekuens_latih = tokenizer.texts_to_sequences(kalimat_latih)
sekuens_test = tokenizer.texts_to_sequences(kalimat_test)

#padding agar setiap sequence sama panjang
padded_latih = pad_sequences(sekuens_latih) 
padded_test = pad_sequences(sekuens_test)

Pada klasifikasi teks, kita perlu melakukan embedding yang merupakan kunci dalam klasifikasi teks di Tensorflow. Embedding memungkinkan model ML untuk memahami makna di setiap kata dan mengelompokkan kata-kata dengan makna yang mirip agar berdekatan. Misalnya komentar pada sebuah video youtube, di mana kata-kata “menarik”, “keren”, dan “luar biasa” akan dikelompokkan berdekatan. Pengelompokkan ini dapat dicapai dengan memetakan setiap kata ke dalam vektor atau larik. Di mana kata yang mirip akan memiliki nilai vektor yang mirip. 

Untuk arsitektur yang akan digunakan adalah layer embedding, dengan argumen pertama sesuai dengan jumlah vocabulary/kata yang kita pakai pada tokenizer. 

Argumen selanjutnya adalah dimensi embedding, dan input_length yang merupakan panjang dari sequence. Nah di kita tidak menggunakan layer Flatten melainkan kita menggantinya dengan GlobalAveragePooling1D. Fungsi ini bekerja lebih baik pada kasus NLP dibanding Flatten.

In [21]:
import tensorflow as tf
model = tf.keras.Sequential([
                             tf.keras.layers.Embedding(250, 16, input_length=20),
                             tf.keras.layers.GlobalAveragePooling1D(),
                             tf.keras.layers.Dense(24, activation='relu'),
                             tf.keras.layers.Dense(1, activation='sigmoid')
                             ])
model.compile(loss='binary_crossentropy',optimizer='adam',metrics=['accuracy'])

In [22]:
num_epochs = 30
history = model.fit(padded_latih, y_latih, epochs=num_epochs,
                    validation_data=(padded_test, y_test), verbose=2)

Epoch 1/30
25/25 - 1s - loss: 0.6931 - accuracy: 0.5038 - val_loss: 0.6920 - val_accuracy: 0.5650
Epoch 2/30
25/25 - 0s - loss: 0.6921 - accuracy: 0.5612 - val_loss: 0.6907 - val_accuracy: 0.6150
Epoch 3/30
25/25 - 0s - loss: 0.6901 - accuracy: 0.6100 - val_loss: 0.6884 - val_accuracy: 0.6550
Epoch 4/30
25/25 - 0s - loss: 0.6874 - accuracy: 0.5875 - val_loss: 0.6850 - val_accuracy: 0.6600
Epoch 5/30
25/25 - 0s - loss: 0.6825 - accuracy: 0.6612 - val_loss: 0.6786 - val_accuracy: 0.6800
Epoch 6/30
25/25 - 0s - loss: 0.6748 - accuracy: 0.6888 - val_loss: 0.6702 - val_accuracy: 0.7100
Epoch 7/30
25/25 - 0s - loss: 0.6636 - accuracy: 0.7063 - val_loss: 0.6577 - val_accuracy: 0.7300
Epoch 8/30
25/25 - 0s - loss: 0.6480 - accuracy: 0.7225 - val_loss: 0.6405 - val_accuracy: 0.7250
Epoch 9/30
25/25 - 0s - loss: 0.6282 - accuracy: 0.7350 - val_loss: 0.6237 - val_accuracy: 0.7450
Epoch 10/30
25/25 - 0s - loss: 0.6050 - accuracy: 0.7613 - val_loss: 0.6043 - val_accuracy: 0.7500
Epoch 11/30
25/25 -