Dataset yang digunakan dapat didownload di: https://github.com/rizalespe/Dataset-Sentimen-Analisis-Bahasa-Indonesia atau menggunakan ***git clone*** seperti contoh dibawah ini. Folder yang di _clone_ tersimpan ke dalam folder tempat file project ini disimpan.

In [1]:
#!git clone https://github.com/rizalespe/Dataset-Sentimen-Analisis-Bahasa-Indonesia

## Install Package

**Requirement Package**:

```
1. nltk : https://www.nltk.org/
2. Sastrawi: https://github.com/sastrawi/sastrawi
3. numpy: https://numpy.org/
4. pandas: https://pandas.pydata.org/
5. sklearn: https://scikit-learn.org/stable/

```

# Import Package

In [2]:
#!pip install Sastrawi
#nltk.download('stopwords')
#nltk.download('punkt')

In [1]:
import numpy as np
import pandas as pd
import re
import pickle
from string import punctuation
import os
import json

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

from sklearn.model_selection import train_test_split

# ```{Utils}```

In [2]:
def process_tweet(tweet):
    
    # kumpulan stemming
    factory_stem = StemmerFactory()
    stemmer = factory_stem.create_stemmer()

    # kumpulan stopwords
    factory_stopwords = StopWordRemoverFactory()
    stopword = factory_stopwords.get_stop_words() + stopwords.words('indonesian')
  
    # menghapus kata-kata yang tidak penting seperti @, #
    tweet = re.sub(r'\$\w*', '', tweet)
    tweet = re.sub(r'^RT[\s]+', '', tweet)
    tweet = re.sub(r'https?:\/\/.*[\r\n]*', '', tweet)
    tweet = re.sub(r'#', '', tweet)
    tweet = re.sub(r'<USERNAME>', '', tweet)
    
    # tokenizer word
    tweet_tokens = word_tokenize(tweet)
    
    # membersihkan word
    tweets_clean = [stemmer.stem(word) for word in tweet_tokens if (word not in stopword and word not in punctuation)]
  
    return tweets_clean

In [3]:
def lookup(freqs, word, label):
    
    n = 0
    
    pair = (word, label)
    if (pair in freqs):
        n = freqs[pair]
        
    return n

In [4]:
def count_tweets(tweets, ys):
    
    yslist = np.squeeze(ys).tolist()
    
    freqs = {}
    for y, tweet in zip(yslist, tweets):
        for word in process_tweet(tweet):
            pair = (word, y)
            if pair in freqs:
                freqs[pair] += 1
            else:
                freqs[pair] = 1
    return freqs

# Processing data

### Import data

In [5]:
df = pd.read_csv("data/dataset_komentar_instagram_cyberbullying.csv")

In [6]:
df.head()

Unnamed: 0,Id,Sentiment,Instagram Comment Text
0,1,negative,<USERNAME> TOLOL!! Gak ada hubungan nya kegug...
1,2,negative,Geblek lo tata...cowo bgt dibela2in balikan......
2,3,negative,Kmrn termewek2 skr lengket lg duhhh kok labil ...
3,4,negative,"Intinya kalau kesel dengan ATT nya, gausah ke ..."
4,5,negative,"hadewwwww permpuan itu lg!!!!sakit jiwa,knp ha..."


In [7]:
df.Sentiment.value_counts()

positive    200
negative    200
Name: Sentiment, dtype: int64

In [8]:
df.loc[(df.Sentiment == 'negative'),'Sentiment']=0
df.loc[(df.Sentiment == 'positive'),'Sentiment']=1

In [9]:
X = pd.DataFrame(df['Instagram Comment Text'])
y = df.Sentiment

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [11]:
X_train = X_train.values.squeeze().tolist()
X_test = X_test.values.squeeze().tolist()
y_train = np.array([y_train.values.squeeze().tolist()])
y_test = np.array([y_test.values.squeeze().tolist()])

In [14]:
print(process_tweet(X_train[0]))

['inti', 'kesel', 'att', 'nya', 'gausah', 'anak', 'kasi', 'kembang', 'psikis', 'anak', 'depan', 'itu', 'orang', 'bener', 'bener', 'tolol', 'skrg', 'anda', 'anak', 'anak', 'dikatain', 'orang', 'benci', 'gimana', 'asa', 'benci', 'tau', 'batesnya', 'nama', 'manusia', 'gaakan', 'suka', 'haters']


### Build Freqs

Cell bisa dijalankan atau langsung saja import file `freqs.json`

In [29]:
# freqs = count_tweets(X_train, y_train)

In [30]:
# check output
print("type(freqs) = " + str(type(freqs)))
print("len(freqs) = " + str(len(freqs.keys())))

type(freqs) = <class 'dict'>
len(freqs) = 2772


In [31]:
# save data
## os.makedirs(name="data", exist_ok=True)

## with open('data/freqs.json', 'wb') as fp:
    ##pickle.dump(freqs, fp)

In [16]:
with open('data/freqs_instag.json', 'rb') as f:
    freqs = pickle.load(f)

# Naive Bayes Algorithm

In [46]:
def train_naive_bayes(freqs, X_train, y_train):
    
    loglikelihood = {}
    logprior = 0
    
    # menghitung v, jumlah dari unik word di dalam vocabulary
    vocab = set([pair[0] for pair in freqs.keys()]) # pakai set untuk eleminasi word yang sama
    V = len(vocab)
    
    # hitung N_pos and N_neg
    N_pos = N_neg = 0
    for pair in freqs.keys():# bentuk ('benci', 0)
        # jika label positif atau lebih dari 0
        if pair[1] > 0:
            
            N_pos += freqs[pair]
        
        # else, maka label negatif
        else:
            
            N_neg += freqs[pair]
            
    # hitung, jumlah dokumen
    D = len(y_train[-1])
    
    # hitung D_pos atau jumlah dokumen yang positif
    D_pos = sum(pos for pos in y_train[-1] if pos > 0)
    
    # hitung D_neg atau jumlah dokumen yang negatif
    D_neg = D - D_pos
    
    # hitung logprior
    logprior = np.log(D_pos) - np.log(D_neg)
    
    # untu setiap kata di dalam vocabulary
    for word in vocab:
        # dapatkan frekuensi positive dan negatif dalam word
        freq_pos = lookup(freqs, word, 1.0)
        freq_neg = lookup(freqs, word, 0.0)
        
        # hitung probabilitas setip word adalah positif maupun negatif
        p_w_pos = (freq_pos + 1) / (N_pos + V)
        p_w_neg = (freq_neg + 1) / (N_neg + V)
        
        # calculate log likelihood dari kata
        loglikelihood[word] = np.log(p_w_pos/p_w_neg)
        
    
    return logprior, loglikelihood

In [47]:
# tes algoritma
logprior, loglikelihood = train_naive_bayes(freqs, X_train, y_train)
print(logprior)
print(len(loglikelihood))

0.05001042057466165
2364


# Test Naive Bayes Algorithm

In [48]:
def naive_bayes_predict(tweet, logprior, loglikelihood):
    
    # prosses word
    word_l = process_tweet(tweet)
    
    # inisiasi probabilitas dengan 0
    p = 0
    
    # tambah logprior
    p += logprior
    
    
    for word in word_l:
        
        # cek jika kata ada didalam loglikehood ditionary
        if word in loglikelihood:
            # tambahkan loglikehood dari kata tersebut ke probabilitas
            p += loglikelihood.get(word)
            
    return p

In [49]:
# test dengan tweet sendiri.
my_tweet = 'Ganteng sekali dia.'
p = naive_bayes_predict(my_tweet, logprior, loglikelihood)
print('Output adalah', p)

Output adalah 2.808931450266133


In [52]:
def test_naive_bayes(X_test, y_test, logprior, loglikelihood):
    
    y_hats = []
    for tweet in X_test:
        # jika prediksi > 0
        if naive_bayes_predict(tweet, logprior, loglikelihood) > 0:
            # prediksi kelas adalah 1
            y_hat_i = 1
        else:
            # else, maka prediksi kelas adalah 0
            y_hat_i = 0
        
        # tambahkan hasil prediksi kelas ke list y_hats
        y_hats.append(y_hat_i)
        
    # error adalah rata-rata nilai absolut dari perbedaan y_hats dan y_test
    error = np.mean(np.absolute(y_hats - y_test[-1]))
    
    # akurasi adalah 1 - erros
    accuracy = 1 - error
    
    return accuracy

In [53]:
print("Naive Bayes accuracy = %0.4f" %
      (test_naive_bayes(X_test, y_test, logprior, loglikelihood)))

Naive Bayes accuracy = 0.9250


In [55]:
X_test[6]

'Beginilah pasangan suami istri yg normal.. Romantisme hanya dia dan istri yg tau. Ga perlu diumbar.. Tp dijaga. Yg suka umbar kemesraan iti kebanyakan menutupi kenyataan yg sebenarnya.'

In [56]:
for tweet in ['Cowok macam anjing cuihhh', 'Orang kaya malahn berperilaku sebagai mana orang sederhana', 'Romantisme hanya dia dan istri yg tau.']:
    p = naive_bayes_predict(tweet, logprior, loglikelihood)
    print(f'{tweet} -> {p:.2f}')

Cowok macam anjing cuihhh -> -3.59
Orang kaya malahn berperilaku sebagai mana orang sederhana -> 0.93
Romantisme hanya dia dan istri yg tau. -> -1.05


# Filter words by ratio dari jumlah positive dan negativ

In [57]:
def get_ratio(freqs, word):
    
    pos_neg_ratio = {'positive':0, 'negative':0, 'ratio':0.0}
    
    # gunakan fungsi lookup() untuk menemukan positive count untuk sebuah kata
    pos_neg_ratio['positive'] = lookup(freqs, word, 1)
    
    # gunakan fungsi lookup() untuk meneukan negativ count untuk sebuah kata 
    pos_neg_ratio['negative'] = lookup(freqs, word, 0)
    
    # hitung rasio positif negativ count untuk word
    pos_neg_ratio['ratio'] = (pos_neg_ratio['positive'] + 1) / (pos_neg_ratio['negative'] + 1)
    
    return pos_neg_ratio

In [61]:
get_ratio(freqs, 'belagu')

{'positive': 0, 'negative': 1, 'ratio': 0.5}

In [62]:
def get_words_by_threshold(freqs, label, threshold):
    
    word_list = {}
    
    for key in freqs.keys():
        word, _ = key
        
        # dapatkan positive atau negative ratio untuk sebuah kata
        pos_neg_ratio = get_ratio(freqs, word)
        
        # jika label adalah 1 dan ratio lebih atau sama dengan threshold
        if label == 1 and pos_neg_ratio['ratio'] >= threshold:
            
            # tambahkan pos_neg_ratio ke dictionary
            word_list[word] = pos_neg_ratio
            
        # jika label = 0 dan pos_neg_ratio kurang dari sama dengan threshold
        elif label == 0 and pos_neg_ratio['ratio'] <= threshold:
            
            word_list[word] = pos_neg_ratio
            
    
    return word_list

In [63]:
get_words_by_threshold(freqs, label=0, threshold=0.05)

{'lo': {'positive': 0, 'negative': 22, 'ratio': 0.043478260869565216}}

In [64]:
get_words_by_threshold(freqs, label=1, threshold=10)

{'cantik': {'positive': 31, 'negative': 2, 'ratio': 10.666666666666666},
 'ganteng': {'positive': 14, 'negative': 0, 'ratio': 15.0},
 'lancar': {'positive': 9, 'negative': 0, 'ratio': 10.0},
 'bangga': {'positive': 10, 'negative': 0, 'ratio': 11.0},
 'keren': {'positive': 14, 'negative': 0, 'ratio': 15.0},
 'aurel': {'positive': 13, 'negative': 0, 'ratio': 14.0},
 'jevin': {'positive': 12, 'negative': 0, 'ratio': 13.0}}

# Error Analysis

In [66]:
print('Truth Predicted Tweet')
for x, y in zip(X_test, y_test[-1]):
    y_hat = naive_bayes_predict(x, logprior, loglikelihood)
    if y != (np.sign(y_hat) > 0):
        print('%d\t%0.2f\t%s' % (y, np.sign(y_hat) > 0, ' '.join(
            process_tweet(x)).encode('ascii', 'ignore')))

Truth Predicted Tweet
1	0.00	b'bagus dong cari ilmu mana suami orang didik'
1	0.00	b'begini pasang suami istri yg normal romantisme istri yg tau ga umbar tp jaga yg suka umbar mesra iti banyak tutup nyata yg'
0	1.00	b'anyiennnnggg suara ancur banget merdu tukang goreng'
0	1.00	b'yang bilang enji ganteng bebas slingkuh bego kali ganteng pala lu bau menyan gada ganteng ganteng nya banyak gaya kek mantan bini depok nya'
0	1.00	b'hahhahaha sungguh allah swt laknat wanita rebut zina suami sah oranglain'
0	1.00	b'keluarga ngefans kagum lihat nya deh tapi lihat anak nya yg jelek buluk kan hermansyah kutuk yg timpa bunda kd untung allah swt ganti amora adik nya gemezzzzzzz lihat nya cocok banget anak artis class bunda kd'


# Predict own tweet

In [67]:
my_tweet = 'Lo mau cari gara-gara'

p = naive_bayes_predict(my_tweet, logprior, loglikelihood)
print(p)

-3.494567761941956
