In [1]:
# ------ Load Dataset ---------
# import library
import pandas as pd
import numpy as np

# membaca file csv
TWEET_DATA = pd.read_csv("LGBT.csv")

# mengganti nama kolom
TWEET_DATA.columns = ['tweet']

# menampilkan data bagian head
TWEET_DATA.head()

#TWEET_DATA[['tweet']] jika ingin menampilkan tweet saja

Unnamed: 0,tweet
0,b'RT @Nadhezda8: Dukung Pidanakan LGBT #HukumP...
1,"b'Rekomendasi kemeja retro, Sista. Yang jelas ..."
2,b'RT @mihrabku: Inilah kacaunya portal online ...
3,"b'Porn, LGBT dan cebol Jangan berani nongol Ka..."
4,b'RT @NewOpang: Toko NU jualan lgbt https://t....


In [2]:
# ------ Case Folding ---------
# mengubah semua huruf menjadi kecil
TWEET_DATA['tweet'] = TWEET_DATA['tweet'].str.lower()

print('Hasil Case Folding :')
TWEET_DATA.head()

Hasil Case Folding :


Unnamed: 0,tweet
0,b'rt @nadhezda8: dukung pidanakan lgbt #hukump...
1,"b'rekomendasi kemeja retro, sista. yang jelas ..."
2,b'rt @mihrabku: inilah kacaunya portal online ...
3,"b'porn, lgbt dan cebol jangan berani nongol ka..."
4,b'rt @newopang: toko nu jualan lgbt https://t....


In [3]:
# ------ Tokenizing ---------
# import library
import string 
import re # regex library

# import word_tokenize & FreqDist from NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist

# menghapus karakter spesial
def remove_tweet_special(text):
    # menghapus tab, baris baru & back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
    # menghapus non ASCII (emoticon, dll.)
    text = text.encode('ascii', 'replace').decode('ascii')
    text = re.sub("b'|b\"",'',text)
    # menghapus mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    # menghapus incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
                
TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_tweet_special)

# menghapus nomor
def remove_number(text):
    return  re.sub(r"\d+", "", text)

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_number)

# menghapus tanda baca
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_punctuation)

# menghapus spasi awal & akhir
def remove_whitespace_LT(text):
    return text.strip()

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_whitespace_LT)

# menghapus banyak spasi menjadi satu spasi
def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_whitespace_multiple)

# menghapus karakter tunggal
def remove_singl_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_singl_char)

# NLTK tokenisasi kata 
def word_tokenize_wrapper(text):
    return word_tokenize(text)

TWEET_DATA['tweet_tokens'] = TWEET_DATA['tweet'].apply(word_tokenize_wrapper)

print('Hasil Tokenizing :') 
TWEET_DATA.head()

Hasil Tokenizing :


Unnamed: 0,tweet,tweet_tokens
0,rt dukung pidanakan lgbt hidayat nurwahid lgbt...,"[rt, dukung, pidanakan, lgbt, hidayat, nurwahi..."
1,rekomendasi kemeja retro sista yang jelas ngga...,"[rekomendasi, kemeja, retro, sista, yang, jela..."
2,rt inilah kacaunya portal online yang tak bela...,"[rt, inilah, kacaunya, portal, online, yang, t..."
3,porn lgbt dan cebol jangan berani nongol kalo ...,"[porn, lgbt, dan, cebol, jangan, berani, nongo..."
4,rt toko nu jualan lgbt,"[rt, toko, nu, jualan, lgbt]"


In [4]:
# ------ Filtering (Stopword Removal) --------- 
from nltk.corpus import stopwords

# ---------------------------- stopword from NLTK stopword -------------------------------------
# stopword indonesia
list_stopwords = stopwords.words('indonesian')

# ---------------------------- menambahkan stopword manual  ------------------------------------
# menambahkan stopword tambahan
list_stopwords.extend(["yg", "dg", "rt", "dgn", "ny", "d", 'klo', 'kalo', 'amp', 'biar', 'bikin', 'bilang', 
                       'gak', 'ga', 'krn', 'nya', 'nih', 'sih', 'si', 'tau', 'tdk', 'tuh', 'utk', 'ya','jd',
                       'jgn', 'sdh', 'aja', 'n', 't', 'nyg', 'hehe', 'pen', 'u', 'nan', 'loh', 'rt', 'noh'
                       '&amp', 'yah', 'gk', 'ya', 'mo', 'mah', 'oh', 'bgt', 'ah', 'lg', 'gini', 'gni', 'dll'
                       'hny', 'in', 'gk', 'gin', 'mh', 'ma'])

# --------------------------- menambahkan stopword dari file txt -------------------------------
# membaca file stopword txt menggunakan pandas
txt_stopword = pd.read_csv("stopwordbahasa.txt", names= ["stopwords"], header = None)

# konversi string stopword ke daftar & tambahkan stopword tambahan
list_stopwords.extend(txt_stopword["stopwords"][0].split(' '))

# ---------------------------------------------------------------------------------------

# konversi list ke dictionary
list_stopwords = set(list_stopwords)


# hapus stopword pada list token
def stopwords_removal(words):
    return [word for word in words if word not in list_stopwords]

TWEET_DATA['tweet_tokens_WSW'] = TWEET_DATA['tweet_tokens'].apply(stopwords_removal) 

print('Hasil Filtering :') 
TWEET_DATA.head()

Hasil Filtering :


Unnamed: 0,tweet,tweet_tokens,tweet_tokens_WSW
0,rt dukung pidanakan lgbt hidayat nurwahid lgbt...,"[rt, dukung, pidanakan, lgbt, hidayat, nurwahi...","[dukung, pidanakan, lgbt, hidayat, nurwahid, l..."
1,rekomendasi kemeja retro sista yang jelas ngga...,"[rekomendasi, kemeja, retro, sista, yang, jela...","[rekomendasi, kemeja, retro, sista, nggak, kek..."
2,rt inilah kacaunya portal online yang tak bela...,"[rt, inilah, kacaunya, portal, online, yang, t...","[kacaunya, portal, online, belajar, menulis, b..."
3,porn lgbt dan cebol jangan berani nongol kalo ...,"[porn, lgbt, dan, cebol, jangan, berani, nongo...","[porn, lgbt, cebol, berani, nongol, ditampol, ..."
4,rt toko nu jualan lgbt,"[rt, toko, nu, jualan, lgbt]","[toko, nu, jualan, lgbt]"


In [5]:
# ------ Stemming --------- 
# import package Sastrawi 
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import swifter

# membuat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# stemmed
def stemmed_wrapper(term):
    return stemmer.stem(term)

term_dict = {}

for document in TWEET_DATA['tweet_tokens_WSW']:
    for term in document:
        if term not in term_dict:
            term_dict[term] = ' '
            
print(len(term_dict))
print("------------------------")

for term in term_dict:
    term_dict[term] = stemmed_wrapper(term)
    print(term,":" ,term_dict[term])
    
print(term_dict)
print("------------------------")


# menerapkan stemmed term ke dataframe
def get_stemmed_term(document):
    return [term_dict[term] for term in document]

TWEET_DATA['tweet_tokens_stemmed'] = TWEET_DATA['tweet_tokens_WSW'].swifter.apply(get_stemmed_term)

print('Hasil Stemming :') 
TWEET_DATA.head()

1339
------------------------
dukung : dukung
pidanakan : pidana
lgbt : lgbt
hidayat : hidayat
nurwahid : nurwahid
bertentangan : tentang
pancasila : pancasila
rekomendasi : rekomendasi
kemeja : kemeja
retro : retro
sista : sista
nggak : nggak
kek : kek
firaun : firaun
tag : tag
libur : libur
siang : siang
ozil : ozil
kacaunya : kacau
portal : portal
online : online
belajar : ajar
menulis : tulis
berita : berita
cuitan : cuit
nadir : nadir
dibenturkan : bentur
pernyataan : nyata
hrs : hrs
porn : porn
cebol : cebol
berani : berani
nongol : nongol
ditampol : ditampol
khusus : khusus
oposisi : oposisi
salfol : salfol
toko : toko
nu : nu
jualan : jual
kaum : kaum
predator : predator
normal : normal
mrk : mrk
berburu : buru
sebyk : sebyk
mgkn : mgkn
manusia : manusia
bareng : bareng
nyembah : nyembah
iblis : iblis
msk : msk
neraka : neraka
mengundang : undang
bencana : bencana
alam : alam
peduli : peduli
lingkungan : lingkung
gue : gue
maksanya : maksanya
btw : btw
hidup : hidup
berdampinga

ngomongin : ngomongin
babi : babi
heboh : heboh
lingk : lingk
anggota : anggota
dewan : dewan
singgung : singgung
langsung : langsung
terserah : serah
kesalahan : salah
apapun : apa
gada : gada
halah : halah
bokefer : bokefer
pendukung : dukung
kumurkumur : kumurkumur
norak : norak
son : son
getol : getol
aktivis : aktivis
gerah : gerah
kafir : kafir
gemar : gemar
menstigma : stigma
makhluk : makhluk
jamin : jamin
perbuatan : buat
angka : angka
didu : didu
om : om
sendri : sendri
akibat : akibat
mu : mu
terbuka : buka
lesbian : lesbian
gay : gay
biseksual : biseksual
transg : transg
ustadz : ustadz
abdul : abdul
somad : somad
pemberian : beri
tuhan : tuhan
kanjengraden : kanjengraden
formula : formula
sponsor : sponsor
birlgbt : birlgbt
daerah : daerah
kadrun : kadrun
padang : padang
bogorpemerkosaan : bogorpemerkosaan
massal : massal
santrigabener : santrigabener
pelukan : peluk
lildove : lildove
tolol : tolol
bener : bener
nyesel : nyesel
gua : gua
nungguin : nungguin
bertaun : taun


kenabiian : kenabiian
melecehkan : leceh
negar : negar
memperkecil : kecil
potensi : potensi
penularan : tular
menaikkan : naik
mental : mental
disembuhkan : sembuh
republika : republika
mobile : mobile
bcd : bcd
chattan : chattan
dululgbt : dululgbt
btajg : btajg
astagfirullah : astagfirullah
gitum : gitum
ajgajg : ajgajg
gelar : gelar
acara : acara
makassar : makassar
sulsel : sulsel
hidayatullah : hidayatullah
sleman : sleman
blazer : blazer
ngantor : ngantor
rating : rating
thread : thread
anyingg : anyingg
ticket : ticket
pesawat : pesawat
afganistan : afganistan
sewain : sewain
hotel : hotel
akomodasi : akomodasi
us : us
james : james
martin : martin
sj : sj
perjumpaan : jumpa
gereja : gereja
via : via
net : net
boti : bot
hbgn : hbgn
emg : emg
arti : arti
bonceng : bonceng
ngerti : ngerti
sieeee : sieeee
curhat : curhat
amin : amin
miknya : mik
menyuarakan : suara
lgbtyang : lgbtyang
yunianto : yunianto
percayalah : percaya
bahagiakebahagiaan : bahagiakebahagiaan
semu : semu
dik

Pandas Apply:   0%|          | 0/269 [00:00<?, ?it/s]

Hasil Stemming :


Unnamed: 0,tweet,tweet_tokens,tweet_tokens_WSW,tweet_tokens_stemmed
0,rt dukung pidanakan lgbt hidayat nurwahid lgbt...,"[rt, dukung, pidanakan, lgbt, hidayat, nurwahi...","[dukung, pidanakan, lgbt, hidayat, nurwahid, l...","[dukung, pidana, lgbt, hidayat, nurwahid, lgbt..."
1,rekomendasi kemeja retro sista yang jelas ngga...,"[rekomendasi, kemeja, retro, sista, yang, jela...","[rekomendasi, kemeja, retro, sista, nggak, kek...","[rekomendasi, kemeja, retro, sista, nggak, kek..."
2,rt inilah kacaunya portal online yang tak bela...,"[rt, inilah, kacaunya, portal, online, yang, t...","[kacaunya, portal, online, belajar, menulis, b...","[kacau, portal, online, ajar, tulis, berita, c..."
3,porn lgbt dan cebol jangan berani nongol kalo ...,"[porn, lgbt, dan, cebol, jangan, berani, nongo...","[porn, lgbt, cebol, berani, nongol, ditampol, ...","[porn, lgbt, cebol, berani, nongol, ditampol, ..."
4,rt toko nu jualan lgbt,"[rt, toko, nu, jualan, lgbt]","[toko, nu, jualan, lgbt]","[toko, nu, jual, lgbt]"


In [6]:
TWEET_DATA.to_csv("LGBT_clean.csv")

In [18]:
TWEET_DATA = pd.read_csv("LGBT_clean.csv")
TWEET_DATA.columns = ['tweet']

# menampilkan data bagian head
TWEET_DATA.head()

Unnamed: 0,tweet
0,"['dukung', 'pidana', 'lgbt', 'hidayat', 'nurwa..."
1,"['rekomendasi', 'kemeja', 'retro', 'sista', 't..."
2,"['kacau', 'portal', 'online', 'ajar', 'tulis',..."
3,"['porn', 'lgbt', 'cebol', 'berani', 'muncul', ..."
4,"['toko', 'jual', 'lgbt']"
