# Setup and import libraries

In [1]:
import os
import numpy as np
import pandas as pd
import tensorflow as tf

from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Load data

In [2]:
PROCESSED_DATA_PATH = './data/processed'

In [3]:
test_data = pd.read_csv(f'{PROCESSED_DATA_PATH}/processed_test.csv')
train_data = pd.read_csv(f'{PROCESSED_DATA_PATH}/processed_train.csv')

In [4]:
train_data.head()

Unnamed: 0,original_text,source,pornografi,sara,radikalisme,pencemaran_nama_baik,processed_text
0,[QUOTE=jessepinkman16;5a50ac34d89b093f368b456e...,kaskus,0,0,0,1,jabar memang provinsi barokah boleh juga dan n...
1,"@verosvante kita2 aja nitizen yang pada kepo,t...",instagram,0,0,0,0,kita saja nitizen yang pada penasaran toh kelu...
2,"""#SidangAhok smg sipenista agama n ateknya mat...",twitter,0,1,1,1,sidangahok semoga sipenista agama dan ateknya ...
3,@bolususulembang.jkt barusan baca undang2 ini....,instagram,0,0,0,0,jakarta barusan baca undang ini tetap dibedaka...
4,bikin anak mulu lu nof \nkaga mikir apa kasian...,kaskus,0,0,0,0,buat anak melulu kamu nof nkaga mikir apa kasi...


In [5]:
train_data.tail()

Unnamed: 0,original_text,source,pornografi,sara,radikalisme,pencemaran_nama_baik,processed_text
6990,Mas. Sebenarnya aku gamau bully mas tp kek nya...,instagram,0,0,0,0,mas sebenarnya aku tidak mau buly mas tapi sep...
6991,"Kdang ngaku nicky minaj, kdang beyonce, kdang ...",instagram,0,0,0,0,kdang mengaku nicky minaj kdang beyonce kdang ...
6992,"Time kemas sesuatu tadi, terfikir jugak botol ...",twitter,0,0,1,0,waktu kemas sesuatu tadi terfikir jugak botol ...
6993,"@BasherRL heh kontol, jan sok pemes lu di rp, ...",twitter,1,0,0,1,heh kontol jan sok pemes kamu di rp muka seper...
6994,"Maen bacok""an yuk""QueenMutiaa: Kalau kamu suka...",twitter,0,1,1,1,main bacok an ayo quenmutia kalau kamu suka bu...


# Get the comment text sample

In [6]:
train_data.iloc[5]['processed_text']

'itu membuktikan bahwa rakyat malaysia anti cina indonesia pun juga tapi masih malu kita tungu gerakan anti cina di indonesia'

In [7]:
train_data[train_data.columns[2:6]].iloc[5]

pornografi              0
sara                    1
radikalisme             0
pencemaran_nama_baik    1
Name: 5, dtype: int64

# Get the comment table sample

In [8]:
train_data[train_data['sara'] == 1].head(10)

Unnamed: 0,original_text,source,pornografi,sara,radikalisme,pencemaran_nama_baik,processed_text
2,"""#SidangAhok smg sipenista agama n ateknya mat...",twitter,0,1,1,1,sidangahok semoga sipenista agama dan ateknya ...
5,Itu membuktikan bahwa rakyat Malaysia Anti-Cin...,kaskus,0,1,0,1,itu membuktikan bahwa rakyat malaysia anti cin...
11,[color=#111111][size=5][font=Fira Sans]Some Pa...,kaskus,0,1,1,0,font fira sans some pakistanis dan indian musl...
26,Terus kalo masyarakat papua barat ingin merdek...,twitter,0,1,1,0,terus kalau masyarakat papua barat ingin merde...
35,orang seminggu sekali brisik udah langsung di ...,kaskus,0,1,0,1,orang semingu sekali brisik sudah langsung di ...
40,@AGFathur ahaha emang thue gek perang dingin m...,twitter,0,1,1,1,tertawa memang thue gek perang dingin makanya ...
45,Kemarin2 ada yg minta Khilafah berdiri di Indo...,twitter,0,1,1,0,kemarin ada yang minta khilafah berdiri di ind...
47,[QUOTE=maxi1991;5719a287947868cb1a8b4570]\n\nS...,kaskus,1,1,0,1,dan nsebelum kamu ikutan orang lain dan jadi b...
49,Tidak ada kata ampun dan maaf kalo rakyat suda...,twitter,0,1,1,1,tidak ada kata ampun dan maf kalau rakyat suda...
52,Jgn lupa sblm bom bunuh diri bawa viagra inex ...,twitter,0,1,1,1,jangan lupa sebelum bom bunuh diri bawa viagra...


# Preprocessing

In [9]:
# split sentences and labels

sentences = train_data['processed_text']
labels = train_data[train_data.columns[2:6]].values

In [10]:
sentences

0       jabar memang provinsi barokah boleh juga dan n...
1       kita saja nitizen yang pada penasaran toh kelu...
2       sidangahok semoga sipenista agama dan ateknya ...
3       jakarta barusan baca undang ini tetap dibedaka...
4       buat anak melulu kamu nof nkaga mikir apa kasi...
                              ...                        
6990    mas sebenarnya aku tidak mau buly mas tapi sep...
6991    kdang mengaku nicky minaj kdang beyonce kdang ...
6992    waktu kemas sesuatu tadi terfikir jugak botol ...
6993    heh kontol jan sok pemes kamu di rp muka seper...
6994    main bacok an ayo quenmutia kalau kamu suka bu...
Name: processed_text, Length: 6995, dtype: object

In [11]:
labels

array([[0, 0, 0, 1],
       [0, 0, 0, 0],
       [0, 1, 1, 1],
       ...,
       [0, 0, 1, 0],
       [1, 0, 0, 1],
       [0, 1, 1, 1]], dtype=int64)

In [12]:
# Hyperparameters
vocab_size = 20000
embedding_dim = 16
max_length = 1800
trunc_type = 'post'
padding_type = 'post'
ovv_tok = '<OOV>'
training_portion = .8

In [13]:
train_text, test_text, train_cat, test_cat = train_test_split(sentences, labels, shuffle=False)

In [14]:
train_text

0       jabar memang provinsi barokah boleh juga dan n...
1       kita saja nitizen yang pada penasaran toh kelu...
2       sidangahok semoga sipenista agama dan ateknya ...
3       jakarta barusan baca undang ini tetap dibedaka...
4       buat anak melulu kamu nof nkaga mikir apa kasi...
                              ...                        
5241    hem dudukin kamu di atas meja remas remas dada...
5242    terima kasih ea ea rt ayo radit semangat a rt ...
5243    dia bukan fitnah adminya cuma dongok kalau sip...
5244    cuci otak sudah diajarkan dari zaman islam kal...
5245    sabar kakak memng bnyak yang ngak tahu diri ka...
Name: processed_text, Length: 5246, dtype: object

In [15]:
test_text

5246    boleh iya jemput ke dalam rame begitu anak aku...
5247    b turun kg dalam hari tidak bakal balik gendut...
5248    iya diak lugu kironyo bagak nyo ngecek padiah ...
5249    masyalah itu susu kebuka terus memang tidak ma...
5250    halu sekali coeg kok agak geli iya liatnya itu...
                              ...                        
6990    mas sebenarnya aku tidak mau buly mas tapi sep...
6991    kdang mengaku nicky minaj kdang beyonce kdang ...
6992    waktu kemas sesuatu tadi terfikir jugak botol ...
6993    heh kontol jan sok pemes kamu di rp muka seper...
6994    main bacok an ayo quenmutia kalau kamu suka bu...
Name: processed_text, Length: 1749, dtype: object

In [16]:
train_cat

array([[0, 0, 0, 1],
       [0, 0, 0, 0],
       [0, 1, 1, 1],
       ...,
       [0, 0, 0, 1],
       [0, 1, 0, 0],
       [0, 0, 0, 0]], dtype=int64)

In [17]:
test_cat

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       ...,
       [0, 0, 1, 0],
       [1, 0, 0, 1],
       [0, 1, 1, 1]], dtype=int64)

In [18]:
# Fit the tokenizer with training data
tokenizer = Tokenizer(num_words=vocab_size, oov_token=ovv_tok)
tokenizer.fit_on_texts(train_text)

In [19]:
# word_index = tokenizer.word_index
# print(word_index)

In [20]:
# Generate and pad the training sequences
training_sequences = tokenizer.texts_to_sequences(train_text)
training_padded = pad_sequences(training_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)

In [21]:
training_padded

array([[1957,   56,  975, ...,    0,    0,    0],
       [  38,   11, 3046, ...,    0,    0,    0],
       [6259,  332, 8071, ...,    0,    0,    0],
       ...,
       [  35,   50,  463, ...,    0,    0,    0],
       [2687,  249,   16, ...,    0,    0,    0],
       [1000,   98,    1, ...,    0,    0,    0]])

In [22]:
# Generate and pad the testing sequences
testing_sequences = tokenizer.texts_to_sequences(test_text)
testing_padded = pad_sequences(testing_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)

In [23]:
testing_padded

array([[  74,   14,  542, ...,    0,    0,    0],
       [ 816,  689, 2464, ...,    0,    0,    0],
       [  14,    1, 3748, ...,    0,    0,    0],
       ...,
       [ 219,    1,  942, ...,    0,    0,    0],
       [ 258,   45,  255, ...,    0,    0,    0],
       [ 222, 5134,  275, ...,    0,    0,    0]])

# Create model