In [12]:
import pandas as pd 
import numpy as np

TWEET_DATA = pd.read_csv("dataHS_002.csv")

TWEET_DATA.head(10)
TWEET_DATA.loc[12:21,['Content','Label']]

Unnamed: 0,Content,Label
12,@adnrahman Betul apa ustazah tu cakap\n\nIn ma...,4
13,RT @zucowi: @fpoemsh Krn demokrat menormalisas...,4
14,RT @Widyarenee: Ini penting u/ terus diingatka...,4
15,RT @menghanyurkan: kalau sendernya bukan agama...,4
16,RT @satriohendri: Akhirnya @hariankompas yang ...,3
17,"7. Muhaimin Iskandar : 85,4%\n8. Puan Maharani...",4
18,"1. Prabowo Subianto : 96,7%\n2. Ganjar Pranowo...",4
19,Prabowo Subianto unggul dari Gubernur Jawa Ten...,4
20,"RT @aciigulung: udah segender, beda agama lagi...",4
21,@Maudy_Kadrun Gambar aki2mu,2


In [2]:
# ------ Case Folding --------
# use function Series.str.lower() from Pandas
TWEET_DATA['Content'] = TWEET_DATA['Content'].str.lower()


print('Case Folding Result : \n')
print(TWEET_DATA['Content'].head(10))
print('\n\n\n')

Case Folding Result : 

0    pasal 25 uu tpks padahal udah dibilang kalau k...
1    @onedarwanto @kanjeng2022 @__rismawidiono_ � h...
2    @abingsanca karena mereka masih memiliki angga...
3    rt @laingenlisa: pihaknya akan menggandeng kem...
4    rt @rstmbcl: di bully, diserang, dipojokan, da...
5    @agama_nusantara mui sebaiknya bekerja keras u...
6    pak ganjar pranowo bikin ngakak saja, sudah be...
7    demi apapun ya anjir kalo gue di masa depan be...
8    rt @iwanalidarmawan: siang ini mereka yang men...
9    halang kenderaan dan buat gangguan seksual, pe...
Name: Content, dtype: object






In [3]:
import string 
import re #regex library

# import word_tokenize & FreqDist from NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist

# ------ Tokenizing ---------

def remove_tweet_special(text):
    # remove tab, new line, ans back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
    # remove non ASCII (emoticon, chinese word, .etc)
    text = text.encode('ascii', 'replace').decode('ascii')
    # remove mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    # remove incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
                
TWEET_DATA['Content'] = TWEET_DATA['Content'].apply(remove_tweet_special)

#remove number
def remove_number(text):
    return  re.sub(r"\d+", "", text)

TWEET_DATA['Content'] = TWEET_DATA['Content'].apply(remove_number)

#remove punctuation
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

TWEET_DATA['Content'] = TWEET_DATA['Content'].apply(remove_punctuation)

#remove whitespace leading & trailing
def remove_whitespace_LT(text):
    return text.strip()

TWEET_DATA['Content'] = TWEET_DATA['Content'].apply(remove_whitespace_LT)

#remove multiple whitespace into single whitespace
def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

TWEET_DATA['Content'] = TWEET_DATA['Content'].apply(remove_whitespace_multiple)

# remove single char
def remove_singl_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

TWEET_DATA['Content'] = TWEET_DATA['Content'].apply(remove_singl_char)

# NLTK word rokenize 
def word_tokenize_wrapper(text):
    return word_tokenize(text)

TWEET_DATA['tweet_tokens'] = TWEET_DATA['Content'].apply(word_tokenize_wrapper)

print('Tokenizing Result : \n') 
print(TWEET_DATA['tweet_tokens'].head(10))
print('\n\n\n')


Tokenizing Result : 

0    [pasal, uu, tpks, padahal, udah, dibilang, kal...
1                                       [rismawidiono]
2    [karena, mereka, masih, memiliki, anggapan, ba...
3    [rt, pihaknya, akan, menggandeng, kemenag, unt...
4    [rt, di, bully, diserang, dipojokan, dari, seg...
5    [nusantara, mui, sebaiknya, bekerja, keras, un...
6    [pak, ganjar, pranowo, bikin, ngakak, saja, su...
7    [demi, apapun, ya, anjir, kalo, gue, di, masa,...
8    [rt, siang, ini, mereka, yang, mengatasnamakan...
9    [halang, kenderaan, dan, buat, gangguan, seksu...
Name: tweet_tokens, dtype: object






In [18]:
# NLTK calc frequency distribution
def freqDist_wrapper(text):
    return FreqDist(text)

TWEET_DATA['tweet_tokens_fdist'] = TWEET_DATA['tweet_tokens'].apply(freqDist_wrapper)

print('Frequency Tokens : \n') 
print(TWEET_DATA['tweet_tokens_fdist'].head(10).apply(lambda x : x.most_common()))

Frequency Tokens : 

0    [(pasal, 1), (uu, 1), (tpks, 1), (padahal, 1),...
1                                  [(rismawidiono, 1)]
2    [(yg, 3), (karena, 2), (mereka, 2), (memiliki,...
3    [(rt, 1), (pihaknya, 1), (akan, 1), (menggande...
4    [(rt, 1), (di, 1), (bully, 1), (diserang, 1), ...
5    [(nusantara, 1), (mui, 1), (sebaiknya, 1), (be...
6    [(ya, 2), (pak, 1), (ganjar, 1), (pranowo, 1),...
7    [(gue, 3), (hukum, 3), (di, 2), (sih, 2), (yg,...
8    [(rt, 1), (siang, 1), (ini, 1), (mereka, 1), (...
9    [(halang, 1), (kenderaan, 1), (dan, 1), (buat,...
Name: tweet_tokens_fdist, dtype: object


In [19]:
from nltk.corpus import stopwords

# ----------------------- get stopword from NLTK stopword -------------------------------
# get stopword indonesia
list_stopwords = stopwords.words('indonesian')


# ---------------------------- manualy add stopword  ------------------------------------
# append additional stopword
list_stopwords.extend(["yg", "dg", "rt", "dgn", "ny", "d", 'klo', 
                       'kalo', 'amp', 'biar', 'bikin', 'bilang', 
                       'gak', 'ga', 'krn', 'nya', 'nih', 'sih', 
                       'si', 'tau', 'tdk', 'tuh', 'utk', 'ya', 
                       'jd', 'jgn', 'sdh', 'aja', 'n', 't', 
                       'nyg', 'hehe', 'pen', 'u', 'nan', 'loh', 'rt',
                       '&amp', 'yah','wkwk'])

# ----------------------- add stopword from txt file ------------------------------------
# read txt stopword using pandas
txt_stopword = pd.read_csv("stopword.txt", names= ["stopword"], header = None)

# convert stopword string to list & append additional stopword
list_stopwords.extend(txt_stopword["stopword"][0].split(' '))

# ---------------------------------------------------------------------------------------

# convert list to dictionary
list_stopwords = set(list_stopwords)


#remove stopword pada list token
def stopwords_removal(words):
    return [word for word in words if word not in list_stopwords]

TWEET_DATA['tweet_tokens_WSW'] = TWEET_DATA['tweet_tokens'].apply(stopwords_removal) 

print('Filtering (Stopword Removal) : \n')
print(TWEET_DATA['tweet_tokens_WSW'].head(10))

Filtering (Stopword Removal) : 

0    [pasal, uu, tpks, udah, dibilang, keterangan, ...
1                                       [rismawidiono]
2    [memiliki, anggapan, teroris, ditangkap, memil...
3    [menggandeng, kemenag, mengevaluasi, pondok, p...
4    [bully, diserang, dipojokan, arah, hina, cinta...
5    [nusantara, mui, keras, mencegah, pelecehan, s...
6    [ganjar, pranowo, ngakak, berani, tipu, rakyat...
7    [apapun, anjir, gue, bener, sukses, ranah, huk...
8    [siang, mengatasnamakan, relawan, ganjar, pran...
9    [halang, kenderaan, gangguan, seksual, perbuat...
Name: tweet_tokens_WSW, dtype: object


In [20]:
normalizad_word = pd.read_excel("normalisasi-V1.xlsx")

normalizad_word_dict = {}

for index, row in normalizad_word.iterrows():
    if row[0] not in normalizad_word_dict:
        normalizad_word_dict[row[0]] = row[1] 

def normalized_term(document):
    return [normalizad_word_dict[term] if term in normalizad_word_dict else term for term in document]

TWEET_DATA['tweet_normalized'] = TWEET_DATA['tweet_tokens_WSW'].apply(normalized_term)

print('Normalization : \n')
TWEET_DATA['tweet_normalized'].head(10)

Normalization : 



0    [pasal, uu, tpks, udah, dikatakan, keterangan,...
1                                       [rismawidiono]
2    [memiliki, anggapan, teroris, ditangkap, memil...
3    [menggandeng, kemenag, mengevaluasi, pondok, p...
4    [bully, diserang, dipojokan, arah, hina, cinta...
5    [nusantara, mui, keras, mencegah, pelecehan, s...
6    [ganjar, pranowo, tertawa, berani, tipu, rakya...
7    [apapun, waw, aku, benar, sukses, ranah, hukum...
8    [siang, mengatasnamakan, relawan, ganjar, pran...
9    [halang, kenderaan, gangguan, seksual, perbuat...
Name: tweet_normalized, dtype: object

In [21]:
#Delete puntuation from normalized data
# define punctuation
punctuations = '''!()-[]{};:'"\,<>./?@#$%^&*_~'''

my_str = str(TWEET_DATA['tweet_normalized'])


# Delete punctuation from string
TWEET_DATA_PREPO = ""
for char in my_str:
   if char not in punctuations:
       TWEET_DATA_PREPO = TWEET_DATA_PREPO + char
print(TWEET_DATA_PREPO)

0       pasal uu tpks udah dikatakan keterangan
1                                          rismawidiono
2       memiliki anggapan teroris ditangkap memil
3       menggandeng kemenag mengevaluasi pondok p
4       bully diserang dipojokan arah hina cinta
                                                      
1676     capres imigran yaman merubah ulama buzzer
1677    yaudah biarin yaudah senyumin yaudah lup
1678    sapiens iman beriman menemukan tuhan del
1679    munafiknya politisasi politik perusak pan
1680    prabowo subianto persen ganjar pranowo p
Name tweetnormalized Length 1681 dtype object


In [22]:
TWEET_DATA['tweet_normalized'].to_csv("dataHS_01_normal.csv", index=False)


In [11]:
# import Sastrawi package
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import swifter


# create stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# stemmed
def stemmed_wrapper(term):
    return stemmer.stem(term)

term_dict = {}

for document in TWEET_DATA['tweet_normalized']:
    for term in document:
        if term not in term_dict:
            term_dict[term] = ' '
            
print(len(term_dict))
print("------------------------")

for term in term_dict:
    term_dict[term] = stemmed_wrapper(term)
    print(term,":" ,term_dict[term])
    
print(term_dict)
print("------------------------")


# apply stemmed term to dataframe
def get_stemmed_term(document):
    return [term_dict[term] for term in document]

TWEET_DATA['tweet_tokens_stemmed'] = TWEET_DATA['tweet_normalized'].swifter.apply(get_stemmed_term)
print('Stemmer : \n')
print(TWEET_DATA['tweet_tokens_stemmed'])




6713
------------------------
pasal : pasal
uu : uu
tpks : tpks
udah : udah
dikatakan : kata
keterangan : terang
korban : korban
membuktikan : bukti
pelecehan : leceh
seksual : seksual
minimal : minimal
aparat : aparat
penegak : tegak
hukum : hukum
ikut : ikut
atas : atas
berita : berita
undang undang : undang undang
bertindak : tindak
jalur : jalur
viral : viral
rismawidiono : rismawidiono
memiliki : milik
anggapan : anggap
teroris : teroris
ditangkap : tangkap
keimanan : iman
menganggap : anggap
berjuang : juang
penegakan : tega
agama : agama
terorisme : terorisme
agamanya : agama
menganjurkan : anjur
penganutnya : anut
menggandeng : gandeng
kemenag : kemenag
mengevaluasi : evaluasi
pondok : pondok
pesantren : pesantren
lokasi : lokasi
sekolah : sekolah
madrasah : madrasah
bully : bully
diserang : serang
dipojokan : pojok
arah : arah
hina : hina
cinta : cinta
dapatkan : dapat
cacian : caci
nusantara : nusantara
mui : mui
keras : keras
mencegah : cegah
marak : marak
ganjar : ganjar
pr

show : show
hahaha : hahaha
ingett : ingett
bgtt : bgtt
temen : temen
ngelakuin : ngelakuin
sidang : sidang
guru : guru
terluka : luka
kafir : kafir
mengakui : aku
syahadat : syahadat
pendukung : dukung
medsos : medsos
catut : catut
membodohi : bodoh
masyarakat : masyarakat
awam : awam
membantu : bantu
dianggap : anggap
berpahala : pahala
membela : bela
melancarkan : lancar
id : id
topeng : topeng
networks : networks
fachry : fachry
anakkolong : anakkolong
morafia : morafia
tikadrun : tikadrun
chotimah : chotimah
statemen : statemen
bloon : bloon
kayaknya : kayak
kesalahan : salah
asusila : asusila
kentara : kentara
ente : ente
ateis : ateis
atau : atau
anti : anti
agnostik : agnostik
klaim : klaim
ane : ane
standing : standing
rendahkah : rendah
berpikiror : berpikiror
putusannya : putus
penggadilan : penggadilan
dinyatakan : nyata
bersalah : salah
boyolali : boyolali
presiden : presiden
joko : joko
widodo : widodo
mengecek : ecek
bahan : bahan
pokok : pokok
pasar : pasar
legi : legi


mencintai : cinta
ahli : ahli
teologia : teologia
umat : umat
bilang : bilang
membingungkan : bingung
byk : byk
kontradiksi : kontradiksi
aalona : aalona
negara : negara
suci : suci
dunia : dunia
kejelasan : jelas
menghukum : hukum
berb : berb
era : era
admin : admin
penistaan : nista
doain : doain
sehatsehat : sehatsehat
yesus : yesus
kristus : kristus
penguasa : kuasa
mengasihi : asih
marm : marm
bacaan : baca
banyak omong : banyak omong
berbelit belit : belit belit
menjelaskan : jelas
sisi : sisi
edukasi : edukasi
asli : asli
kesel : kesel
persetan : persetan
banget : banget
kitchen : kitchen
ngomong-ngomong : ngomong-ngomong
kepala : kepala
chefmu : chefmu
dilaporkan : lapor
memakan : makan
selamjutnya : selamjutnya
memotong : potong
buahku : buah
becanda : becanda
menjurus : jurus
cebong : cebong
radikal : radikal
beraksi : aksi
moral : moral
adab : adab
menelanjangi : telanjang
pengunjung : unjung
cafe : cafe
didiamka : didiamka
calm : calm
logikanya : logika
somplak : somplak
ch

anjangsanasilaturrahmi : anjangsanasilaturrahmi
kamtibmas : kamtibmas
kp : kp
leweung : leweung
lalarang : lalarang
bpk : bpk
ustad : ustad
wahab : wahab
tangkil : tangkil
kec : kec
caringin : caringin
pedo : pedo
dijustifikasi : justifikasi
dibelain : bain
dalil : dalil
puji : puji
mikirnya : mikirnya
keren : keren
bat : bat
ore : ore
celana : celana
robek : robek
potong : potong
top : top
aslinya : asli
kekurangan : kurang
indeed : indeed
askrl : askrl
goa : goa
galak : galak
jaket : jaket
peluru : peluru
durling : durling
sarling : sarling
bupati : bupati
yuni : yuni
berasumsi : asumsi
ambil : ambil
kesempatan : sempat
ditelanjangi : telanjang
buka : buka
ngarak : ngarak
gendong : gendong
gulingin : gulingin
ikutan : ikut
megang : megang
bersembunyi : sembunyi
karoke : karoke
bangga : bangga
bilangin : bilangin
sohibmu : sohib
sewot : sewot
nyerang : nyerang
lakukan : laku
perbolehkan : boleh
vid : vid
persekusi : persekusi
sumbar : sumbar
fanatisme : fanatisme
arb : arb
ateismenya 

prestasiminim : prestasiminim
bingitz : bingitz
mendingan : mending
mbak : mbak
hc : hc
ssos : ssos
demokrasi : demokrasi
akalan : akal
komunis : komunis
pemerintahan : perintah
kemajuan : maju
cakeuuupppp : cakeuuupppp
diadili : adil
seadil : adil
adilnya : adil
dituduh : tuduh
pantes : pantes
dibuka : buka
sex : sex
recordnya : recordnya
dibutuhkan : butuh
dibocorkannya : bocor
record : record
dsrnya : dsrnya
pikirannya : pikir
kotor : kotor
manada : manada
maling : maling
dbebasin : dbebasin
sepele : sepele
amet : amet
ksian : ksi
psti : psti
perna : perna
laporin : laporin
bos : bos
hr : hr
jelasin : jelasin
laporanmu : lapor
cabut : cabut
menoleransi : toleransi
penuh : penuh
bahaya : bahaya
panca : panca
get : get
what : what
you : you
paid : paid
tabu : tabu
etis : etis
dsb : dsb
koma : koma
berdaya : daya
senggaknya : senggak
dibunuh : bunuh
dimutilasi : mutilasi
ditipu : tipu
dirampok : rampok
diculik : culik
dihilangkan : hilang
keluarga : keluarga
kepikiran : pikir
nyariin :

cringe : cringe
bngt : bngt
diliat : liat
au : au
ew : ew
lelet : lelet
licik : licik
kedonyan : kedonyan
dijajanin : dijajanin
ngeluh : ngeluh
fitnah : fitnah
tidak pernah : tidak pernah
pelit : pelit
jahit : jahit
mulut : mulut
muakk : muakk
mukutnya : mukutnya
sukanya : suka
mulu : mulu
itsme : itsme
beradab : adab
nyebar : nyebar
sumpahin : sumpahin
berkah : berkah
sialan : sial
mo : mo
mengamuk : amuk
menidng : menidng
beli : beli
bubur : bubur
ayam : ayam
playlist : playlist
direport : direport
ckck : ckck
lupain : lupain
kebesaran : besar
rencana : rencana
takdir : takdir
user : user
diupdate : diupdate
miui : miui
kamera : kamera
depannya : depan
hospital : hospital
satgi : satgi
terjai : terjai
pulak : pulak
betui : betui
kesabaran : sabar
setipis : setip
tisu : tisu
dibagi : bagi
could : could
never : never
socmed : socmed
bentukan : bentuk
balas : balas
diproses : proses
astaghfirulloh : astaghfirulloh
ndak : ndak
hakimi : hakim
minum : minum
kehausan : haus
perhitungan : hi

spay : spay
safiaselling : safiaselling
lonte : lonte
tonjokin : tonjokin
ank : ank
didu : didu
buzzer : buzzer
nihudah : nihudah
prapaskah : prapaskah
ngehujat : ngehujat
ngefollow : ngefollow
kyai : kyai
dalilnya : dalil
hadits : hadits
quran : quran
ultah : ultah
tenang : tenang
diganggu : ganggu
gajadi : gajadi
perkataan : kata
menusuk : tusuk
meme : meme
gisel : gisel
bawaannya : bawa
cuy : cuy
beneran : beneran
capee : capee
ngadepin : ngadepin
mood : mood
ngelampiasin : ngelampiasin
darting : darting
freya : freya
karakter : karakter
tot : tot
ngemper : ngemper
ril : ril
ngeselin : ngeselin
delulu : delulu
mazlan : mazlan
accident : accident
ditch : ditch
bayern : bayern
bginilah : bginilah
cemburu : cemburu
segoblok : goblok
berkerudung : kerudung
biru : biru
stasiun : stasiun
kebayoran : kebayoran
gamasuk : gamasuk
anxiety : anxiety
attack : attack
legit : legit
hell : hell
pass : pass
out : out
for : for
being : being
too : too
overwhelmed : overwhelmed
nanon : nanon
loba : l

nyusahin : nyusahin
jatohnya : jatohnya
huh : huh
parasitisme : parasitisme
pinternya : pinternya
dimanaa : dimanaa
bertahun : tahun
maguire : maguire
sevilla : sevilla
bolanya : bola
pantulin : pantulin
maxim : maxim
koplak : koplak
dipimpin : pimpin
planga : planga
plongo : plongo
dijilat : jilat
ogah : ogah
ogahan : ogah
hey : hey
adzan : adzan
samakan : sama
lolongan : lolong
florida : florida
hamil : hamil
asam : asam
lambung : lambung
haid : haid
kutang : kutang
ibumu : ibu
suruh : suruh
memperbaiki : baik
bukin : bukin
dl : dl
mention : mention
kdrun : kdrun
pening : pening
nafkah : nafkah
jahil : jahil
asas : asas
akidah : akidah
mangsa : mangsa
ideologi : ideologi
mungk : mungk
idem : idem
ormass : ormass
rmk : rmk
its : its
about : about
dianjurkan : anjur
triggered : triggered
oknum : oknum
perang : perang
lanjuti : lanjut
melebar : lebar
haq : haq
kepada : kepada
lumajang : lumajang
sebag : sebag
rusuh : rusuh
korupsi : korupsi
bandar : bandar
judi : judi
kakanwil : kakanwi

mcmna : mcmna
nyangkul : nyangkul
diladang : ladang
rawat : rawat
tanaman : tanam
mahasura : mahasura
menolong : tolong
benarbenar : benarbenar
maha : maha
perkasa : perkasa
qs : qs
hajj : hajj
terlaknat : laknat
lsraei : lsraei
tegakkan : tegak
kalimatullah : kalimatullah
cirah : cirah
girl : girl
percayalah : percaya
penjelasan : jelas
peperangan : peperangan
musa : musa
pendekatan : dekat
salib : salib
memusnahkan : musnah
hakekat : hakekat
sebatas : batas
primitif : primitif
jubah : jubah
pegl : pegl
serba : serba
nombok : nombok
marga : marga
ngingetin : ngingetin
hiiiiiiiii : hiiiiiiiii
dimatamu : mata
harganya : harga
segini : gin
hayooo : hayooo
judgemental : judgemental
tupuasa : tupuasa
payah : payah
hamba : hamba
as : as
mosleem : mosleem
human : human
usul : usul
organisasi : organisasi
diisi : isi
lintas : lintas
perwakilan : wakil
standar : standar
aqil : aqil
baligh : baligh
diajarkan : ajar
diabaikan : abai
konsep : konsep
adolescence : adolescence
ala : ala
pangdam : p

alialhusaini : alialhusaini
kecam : kecam
pengisian : isi
berlatih : latih
wallah : wallah
pendatang : datang
menjual : jual
serakah : serakah
pulangkan : pulang
leluhurnya : leluhur
skb : skb
didalamnya : dalam
nengatur : nengatur
pendirian : diri
terbit : terbit
sby : sby
kit : kit
kankemenag : kankemenag
kab : kab
khairil : khairil
lahwan : lahwan
kusan : kus
hilir : hilir
pagatan : pagatan
kalsel : kalsel
cw : cw
bund : bund
morning : morning
prenjon : prenjon
kakelzone : kakelzone
ghosting : ghosting
dimensi : dimensi
izuaf : izuaf
minkalo : minkalo
nonmuslim : nonmuslim
hahahayang : hahahayang
didemo : demo
menista : nista
jujuran : jujuran
nego : nego
nek : nek
beritanya : berita
klonjotan : klonjotan
boto : boto
mengirim : kirim
secepatnya : cepat
bidadari : bidadari
berpesta : pesta
pora : pora
pro : pro
bhinneka : bhinneka
tunggal : tunggal
ika : ika
https : https
tentara : tentara
menyerang : serang
beribadah : ibadah
taraw : taraw
pemahamanmu : paham
membuatmu : buat
bodohn

smwa : smwa
tcih : tcih
anjiing : anjiing
babiiii : babiiii
kafiir : kafiir
cabuuul : cabuuul
syiah : syiah
pendeta : pendeta
pedofil : pedofil
sodomi : sodomi
ribuan : ribu
dibantai : bantai
pree : pree
sebebasbebasnya : sebebasbebasnya
dibacotkanya : dibacotkanya
apaka : apaka
busuknya : busuk
tajam : tajam
nggedabrus : nggedabrus
kebal : kebal
upload : upload
dasarnya : dasar
berguru : guru
bangzat : bangzat
sil : sil
diakhirat : akhirat
pertanggung : tanggung
rakus : rakus
aga : aga
cabuul : cabuul
ngelonteee : ngelonteee
haluuu : haluuu
luuu : luuu
pemberitaan : berita
tes : tes
wawasan : wawas
kebangsaan : bangsa
memisahkan : pisah
kebangsaatan : kebangsaatan
pancasilabiadab : pancasilabiadab
dalang : dalang
berantem : antem
bakar : bakar
sebar : sebar
dielukan : elu
bodohlah : bodoh
runtuh : runtuh
kedok : kedok
garong : garong
hasut : hasut
belah : belah
hobinya : hobi
dikabulin : dikabulin
doanya : doa
berjilid : jilid
rintuh : rintuh
yp : yp
sekarsng : sekarsng
utuh : utuh
ot

dare : dare
suru : suru
menuduh : tuduh
buktikan : bukti
rupa : rupa
memaksa : paksa
gunanya : guna
sebodoh : bodoh
help : help
rtlike : rtlike
spes : spes
layout : layout
ppu : ppu
gagasan : gagas
snbt : snbt
ht : ht
kaa : kaa
disney : disney
hariannya : hari
start : start
prime : prime
netflix : netflix
viu : viu
canva : canva
hotstar : hotstar
premier : premier
grammarly : grammarly
trusted : trusted
testi : testi
fast : fast
ayooo : ayooo
nxp : nxp
download : download
pln : pln
mobile : mobile
play : play
store : store
app : app
tksdesi : tksdesi
sek : sek
kdrama : kdrama
lovers : lovers
drama : drama
roommate : roommate
gumiho : gumiho
dapetin : dapetin
album : album
voting : voting
yuk : yuk
hsjshhshssh : hsjshhshssh
antemi : antem
perangkat : perangkat
cont : cont
dekap : dekap
ares : ares
berbincang : bincang
singkat : singkat
pemusik : musik
jalanan : jalan
gitar : gitar
pangkuannya : pangku
lanjutkan : lanjut
sahut : sahut
finberland : finberland
enjeull : enjeull
rp : rp
pem

imut : imut
perihal : perihal
cipta : cipta
tipikal : tipikal
pramono : pramono
integritas : integritas
terindikasi : indikasi
kode : kode
etikbahkan : etikbahkan
pembocoran : bocor
diperkarakanmainan : diperkarakanmainan
sinar : sinar
tidok : tidok
gorm : gorm
supo : supo
blh : blh
hok : hok
satira : satira
memancing : pancing
etnis : etnis
berlindung : lindung
avanya : avanya
diangkat : angkat
stafsus : stafsus
ai : ai
yuta : yuta
memperkeruh : keruh
nyudutin : nyudutin
misinterpreted : misinterpreted
protesnya : protes
dragging : dragging
firli : firli
bahuri : bahuri
terpojok : pojok
besaran : besar
karyawan : karyawan
kpknya : kpknya
mogok : mogok
detail : detail
esdm : esdm
wkkwkw : wkkwkw
teman : teman
kreatif : kreatif
mengemasnya : emas
dolan : dolan
sekret : sekret
wartawan : wartawan
mlg : mlg
popularitas : popularitas
artifisial : artifisial
ternakannya : terna
respek : respek
aniaya : aniaya
marioternyata : marioternyata
davidkorbanpernah : davidkorbanpernah
ngentt : ngent

slalu : slalu
muncung : muncung
mingkem : mingkem
atm : atm
amik : amik
card : card
blah : blah
huhu : huhu
ancelotti : ancelotti
sopan : sopan
diresmiin : diresmiin
keciduk : ciduk
iyalah : iya
hatipikirannya : hatipikirannya
rakuat : rakuat
geeess : geeess
uwes : uwes
taaaa : taaaa
geess : geess
halahh : halahh
parak : parak
tapir : tapir
astagfirullah : astagfirullah
panggilan : panggil
tandanya : tanda
menghormati : hormat
teteh : teteh
komunitas : komunitas
aktivis : aktivis
muda : muda
indonesiakami : indonesiakami
telur : telur
singki : singki
work : work
life : life
balance : balance
very : very
long : long
holiday : holiday
banyaknya : banyak
flight : flight
terganggu : ganggu
warnain : warnain
comeback : comeback
airport : airport
ln : ln
dipenjara : penjara
kelindes : kelindes
kontener : kontener
bicra : bicra
pintar : pintar
persn : persn
rusaknya : rusak
abpntpi : abpntpi
salud : salud
kompak : kompak
restu : restu
dibantah : ban
sekjen : sekjen
berjamaah : jamaah
disituka

Pandas Apply:   0%|          | 0/1681 [00:00<?, ?it/s]

Stemmer : 

0       [pasal, uu, tpks, udah, kata, terang, korban, ...
1                                          [rismawidiono]
2       [milik, anggap, teroris, tangkap, milik, iman,...
3       [gandeng, kemenag, evaluasi, pondok, pesantren...
4       [bully, serang, pojok, arah, hina, cinta, dapa...
                              ...                        
1676       [capres, imigran, yaman, rubah, ulama, buzzer]
1677    [yaudah, biarin, yaudah, senyumin, yaudah, lup...
1678    [sapiens, iman, iman, temu, tuhan, delusional,...
1679    [munafik, politisasi, politik, usak, pancasila...
1680    [prabowo, subianto, persen, ganjar, pranowo, p...
Name: tweet_tokens_stemmed, Length: 1681, dtype: object


In [23]:
import csv

# Read CSV
with open('dataHS_01_normal.csv', 'r') as csv_file:
    csv_reader = csv.reader(csv_file)
    
    # Creates an empty list to store each row
    rows = []
    
    # Iterate over each line in the CSV file
    for row in csv_reader:
        # Retrieve the values from both columns
        column1 = row[0]
        
        # Converts data to a string without quotes and parentheses
        column1 = column1.replace("[", "").replace("]", "").replace("'", "").replace(",", "")
       
        # Combines the values from both columns with spaces and adds a new row
        row_data = column1 + "\n"

        # Adding rows to the list rows
        rows.append(row_data)

# Writes each line into a text file
with open('dataTEXT01.txt', 'w') as txt_file:
    txt_file.writelines(rows)
    

In [24]:
with open('dataTEXT01.txt', 'r') as file:
    article = file.read()
article

'tweet_normalized\npasal uu tpks udah dikatakan keterangan korban membuktikan pelecehan seksual minimal aparat penegak hukum ikut atas berita undang undang bertindak jalur viral\nrismawidiono\nmemiliki anggapan teroris ditangkap memiliki keimanan menganggap ditangkap berjuang penegakan agama terorisme agamanya agama menganjurkan penganutnya\nmenggandeng kemenag mengevaluasi pondok pesantren lokasi sekolah madrasah\nbully diserang dipojokan arah hina cinta dapatkan cacian\nnusantara mui keras mencegah pelecehan seksual pesantren marak\nganjar pranowo tertawa berani tipu rakyat belum warga internet sekarang banyak cerdas tertawa kekeliruan komentar gemas dalai koruptor anas urbaningrum umur agnes madrid chelsea champions league manchaster city monas benzema\napapun waw aku benar sukses ranah hukum semacamnya ingin aku ubah hukum kebiri mematikan hawa napsu pelaku pelecehan udah jujur aku tidak suka hukum mati mudah tertawa tinggal mati doang\nsiang mengatasnamakan relawan ganjar pranowo 

In [25]:
from polyglot.text import Text

# Create a new text object using Polyglot's Text class: txt
txt = Text(article)

ner_tags = txt.entities
txt.entities

[I-ORG(['mui']),
 I-PER(['anas']),
 I-PER(['agnes']),
 I-ORG(['agnes', 'madrid', 'chelsea']),
 I-PER(['cholil']),
 I-LOC(['jateng']),
 I-PER(['muhaimin', 'iskandar']),
 I-PER(['erick', 'thohir', 'prabowo', 'subianto']),
 I-PER(['anies']),
 I-PER(['prabowo', 'subianto']),
 I-PER(['anies']),
 I-PER(['roger', 'danuarta']),
 I-PER(['anies']),
 I-PER(['anies', 'baswedan', 'prabowo', 'subianto']),
 I-PER(['jokowi']),
 I-PER(['prabowo']),
 I-PER(['prabowo']),
 I-PER(['prabowo']),
 I-LOC(['jateng']),
 I-LOC(['palestina']),
 I-PER(['malcolm']),
 I-LOC(['afganistan']),
 I-PER(['fx']),
 I-LOC(['boyolali']),
 I-PER(['joko', 'widodo']),
 I-LOC(['korsel']),
 I-LOC(['jateng']),
 I-PER(['ahmad']),
 I-LOC(['agong']),
 I-PER(['joko', 'widodo', 'jokowi']),
 I-PER(['agnes']),
 I-PER(['amatan']),
 I-PER(['joko', 'widodo', 'jokowi']),
 I-ORG(['jateng']),
 I-PER(['jateng', 'agnes']),
 I-PER(['inzaghi', 'ash']),
 I-PER(['arbana', 'kristi']),
 I-PER(['jane']),
 I-PER(['kristi']),
 I-PER(['pranowo']),
 I-PER(['

In [None]:
# Creates a Text object for each sentence in the text
result_ner = []
for sentence in article:
    txt = Text(article)
    result_ner.append(txt.entities)

# Combining the NER results for each sentence
result_merge = []
for sentence_ner in result_ner:
    merge = ""
    for entities in sentence_ner:
        tag = entities.tag
        text = entities[0]
        merge += f"<I-{tag}/>{text} "
result_merge.append(merge.strip())

# Save results to a file
with open("data.txt", "w", encoding="utf-8") as file:
    for result in result_merge:
        file.write(result + "\n")

In [26]:
txt = Text(article)

# Initialize the count variable: count
count = 0

# Iterate over all the entities
for ent in txt.entities:
    # check whether the entity contains 'Anies'
    if ('anies' in ent):
        # Increment count
        count += 1
        
# Print count
print(count)

# Calculate the percentage of entities that refer to "Gabo": percentage
percentage = count / len(txt.entities)
print(percentage)

28
0.08459214501510574


In [1]:
x = 5
y = 20
print (x|y)

21
