# **Prepare datasets**

Kita akan memakai dataset NusaX dari paper [berikut](https://arxiv.org/pdf/2205.15960.pdf). Dataset bisa diunduh di [sini](https://drive.google.com/drive/folders/1z1V_dGuEgjZJ2RiauaEcGLkHjBMAwcuO?usp=sharing). Di dalamnya terdapat "train.csv", "valid.csv", dan "test.csv". 

Setelah kita download dataset, kita upload ke Google Colab. Setelah itu kita panggil dengan Pandas dan karena file nya terpisah, kita gabung menjadi 1. 

In [1]:
import pandas as pd

df_train = pd.read_csv('/content/train.csv')
df_valid = pd.read_csv('/content/valid.csv')

df = df_train.append(df_valid, ignore_index=True)

In [2]:
df_test = pd.read_csv('/content/test.csv')

df = df.append(df_test, ignore_index=True)

Kita cek isi datasetnya dan di dalamnya terdapat 1000 data. Terdiri dari:


*   Positive: 378
*   Neutral: 239
*   Negative: 383



In [3]:
df.head()

Unnamed: 0,id,text,label
0,219,Nikmati cicilan 0% hingga 12 bulan untuk pemes...,neutral
1,209,Kue-kue yang disajikan bikin saya bernostalgia...,positive
2,436,Ibu pernah bekerja di grab indonesia,neutral
3,394,Paling suka banget makan siang di sini ayam sa...,positive
4,592,Pelayanan bus DAMRI sangat baik,positive


In [4]:
df.shape

(1000, 3)

In [5]:
df.label.value_counts()

negative    383
positive    378
neutral     239
Name: label, dtype: int64

# **Text Normalization/Cleansing**

## Sentence Tokenization

In [1]:
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize

text = "Barangnya lumayan, cuma yang saya heran xiaomi redmi note 2 ini tombol onnya memang agak rusak? Terus baterai memang cepat low bat juragan?"
text = sent_tokenize(text)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [2]:
text

['Barangnya lumayan, cuma yang saya heran xiaomi redmi note 2 ini tombol onnya memang agak rusak?',
 'Terus baterai memang cepat low bat juragan?']

## Word Tokenization

In [1]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

text = "Barangnya lumayan, cuma yang saya heran xiaomi redmi note 2 ini tombol onnya memang agak rusak? Terus baterai memang cepat low bat juragan?"
text = word_tokenize(text)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
text

['Barangnya',
 'lumayan',
 ',',
 'cuma',
 'yang',
 'saya',
 'heran',
 'xiaomi',
 'redmi',
 'note',
 '2',
 'ini',
 'tombol',
 'onnya',
 'memang',
 'agak',
 'rusak',
 '?',
 'Terus',
 'baterai',
 'memang',
 'cepat',
 'low',
 'bat',
 'juragan',
 '?']

## RegEx

Menggunakan ReGex untuk menghilangkan tanda baca. Contoh lain ReGex bisa dilihat [di sini](https://www.w3schools.com/python/python_regex.asp). 

In [1]:
import re

text = "Barangnya lumayan, cuma yang saya heran xiaomi redmi note 2 ini tombol onnya memang agak rusak? Terus baterai memang cepat low bat juragan?"
text = re.sub(r'[^\w]', ' ', text)

In [2]:
text

'Barangnya lumayan  cuma yang saya heran xiaomi redmi note 2 ini tombol onnya memang agak rusak  Terus baterai memang cepat low bat juragan '

## Remove Emoji

Kita bisa menghapus emoji dengan RegEx.

In [1]:
import re

text = "Bagus banget :)"
text = re.sub(r'[^a-zA-Z0-9]', ' ', text)

In [2]:
text

'Bagus banget   '

## Stopwords

Kita hilangkan "yang" dan "memang" menggunakan teknik stopwords:

In [1]:
stopwords = ["yang", "memang"]
text = "Barangnya lumayan, cuma yang saya heran xiaomi redmi note 2 ini tombol onnya memang agak rusak? Terus baterai memang cepat low bat juragan?"

words = text.split(' ')
for word in words: 
    if word not in stopwords:
        print(word)

Barangnya
lumayan,
cuma
saya
heran
xiaomi
redmi
note
2
ini
tombol
onnya
agak
rusak?
Terus
baterai
cepat
low
bat
juragan?


## Lowercase

Kita akan membuat teks yang menjadi huruf kecil semua.

In [1]:
text = "Barangnya lumayan, cuma yang saya heran xiaomi redmi note 2 ini tombol onnya memang agak rusak? Terus baterai memang cepat low bat juragan?"
text.lower()

'barangnya lumayan, cuma yang saya heran xiaomi redmi note 2 ini tombol onnya memang agak rusak? terus baterai memang cepat low bat juragan?'

# **Feature Extraction: Bag of Words**

Kita simpan teks ke dalam sebuah variabel

In [6]:
data_preprocessed = df.text.tolist()

Untuk melakukan Feature Extraction, kita menggunakan library "Sklearn atau scikit-learn". Sklearn adalah library untuk melakukan task-task Machine Learning. "CountVectorizer" merupakan salah satu modul untuk melakukan "BoW"

In [7]:
from sklearn.feature_extraction.text import CountVectorizer

# Proses Feature Extraction
count_vect = CountVectorizer()
count_vect.fit(data_preprocessed)

X = count_vect.transform(data_preprocessed)
print ("Feature Extraction selesai")

Feature Extraction selesai


# **Feature Extraction: TF-IDF**

Kita simpan teks ke dalam sebuah variabel

In [8]:
data_preprocessed = df.text.tolist()

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Proses Feature Extraction
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(data_preprocessed)

X = tfidf_vect.fit_transform(data_preprocessed)
print ("Feature Extraction selesai")

Feature Extraction selesai


# **Prepare train & test datasets/Splitting Dataset**

In [None]:
from sklearn.model_selection import train_test_split

classes = data.sentimen

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, classes, test_size = 0.2)

# Training

In [None]:
from sklearn.neural_network import MLPClassifier

model = MLPClassifier() 
model.fit(X_train, y_train)

print ("Training selesai")

Training selesai


In [None]:
pickle.dump(model, open("model-sentiment.p", "wb"))

# **Evaluation**

In [None]:
# Langkah selanjutnya adalah "Testing"
# "classification_report" merupakan salah satu modul untuk melakukan "Testing & Validation"

from sklearn.metrics import classification_report

test = model.predict(X_test)

print ("Testing selesai")

print(classification_report(y_test, test)) 

Testing selesai
              precision    recall  f1-score   support

    negative       0.55      0.52      0.53       582
     neutral       0.64      0.66      0.65      1043
    positive       0.48      0.48      0.48       537

    accuracy                           0.58      2162
   macro avg       0.56      0.55      0.55      2162
weighted avg       0.58      0.58      0.58      2162

